CVPR-2021 Masked Autoencoders Are Scalable Vision Learners 2021-12-14 PaperNote CV, cs.Transformer 0 0 Comments Word Count: 137(words) Read Count: 1(minutes) 论文地址:Masked Autoencoders Are Scalable Vision Learners 利用ViT来做跟BERT一样的自监督学习,生成式任务 需要遮住更多的块,使得剩下的块与块之间冗余度没那么高,使任务变得复杂,迫使模型去学习一些更健壮的特征 编码时只处理没遮住的,加速了训练,使用Transformer架构的解码器,直接还原像素的原始信息,使得流程更简单 加上ViT工作之后的各种技术使训练更加鲁棒