CVPR-2021 Masked Autoencoders Are Scalable Vision Learners

2021-12-14 PaperNote CV 0 0 Comments Word Count: 137(words) Read Count: 1(minutes)

论文地址：Masked Autoencoders Are Scalable Vision Learners

利用ViT来做跟BERT一样的自监督学习，生成式任务

需要遮住更多的块，使得剩下的块与块之间冗余度没那么高，使任务变得复杂，迫使模型去学习一些更健壮的特征
编码时只处理没遮住的，加速了训练，使用Transformer架构的解码器，直接还原像素的原始信息，使得流程更简单
加上ViT工作之后的各种技术使训练更加鲁棒

本文链接： https://tyang816.github.io/2021/12/14/Masked Autoencoders Are Scalable Vision Learners/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

Yang TanMaster Student @ECUST