论文地址:Intriguing Properties of Vision Transformers ViT的性质,泛读即可 因为用了tranformer结构,ViT更加关注整体信息,而传统的卷积需要很多层才能感受到全局信息。 健壮性更好:在遮挡、分布偏移、对抗性、排序错乱、语义分割等情况表现更优异 <HR align=left color=#987cb9 SIZE=1>