论文地址:Image as a Foreign Language:BEiT Pretraining for All Vision and Vision-Language Tasks
BEIT-3:多模态掩码语言模型
Abstract
提出了multi-way transformers,在图像上做掩码语言模型(Imglish),文本(English),图像文本对(parallel sentences)
Introduction: The Big Convergence
data:image/s3,"s3://crabby-images/28e74/28e74983ec6211525449cdf6ddcb586773628f4c" alt="avatar"
data:image/s3,"s3://crabby-images/3c996/3c99600be5f6c32a966031f00c9d67c5c2943ff3" alt="avatar"
目前出现了语言,视觉和多模态的大一统趋势,这篇文章的主要目的也是把统一框架这种方法往前推进一步,这种融合趋势主要是以下三个方面:
- transformer从NLP转移到了CV和多模态,对于vision-language modeling而言,dual-encoder适合做快速retrieval,encoder-decoder网络适合生成任务,fusion-encoder架构很好的做image-text encoding。但是大部分的foundation model需要针对下游任务输入输出形式做一些改进
- mask modeling已经能够很好的应用到各个模态里,如果用更多的损失函数那么计算就不高效了,而且loss一多,weight怎么调也是一个大问题,有的Loss互补有的loss互斥,比较人工。所以只用了一个目标MLM,这样都可以视作sequence of tokens,图像和文本可以视作parallel sentences,句子1后跟句子2
- 如何提升模型和数据大小,只有一个capacity很大的模型才能handle更多的任务,所以模型参数扩展到了billion级别,但数据还是使用的public resources
BEIT-3: A General-Purpose Multimodal Foundation Model
data:image/s3,"s3://crabby-images/e2589/e2589c8e0d83616464abd7cca395cf7b665cc467" alt="avatar"
模型本身就是VLMO,前面的multi-head self-attention是共享权重的,后面的FFN是根据不同的模态进行训练的。有可能是遮住图像,有可能是遮住文本,总之都是完形填空
data:image/s3,"s3://crabby-images/33741/33741b84e50e9933f5311ff22efc6c03706fb66f" alt="avatar"
转移到下游任务
data:image/s3,"s3://crabby-images/b1659/b16594820647ebe31f4de1afce4d42ffce37a838" alt="avatar"
Experiments
data:image/s3,"s3://crabby-images/bb907/bb907e59b5b55c8bd71a038d58cb8d47f2f5658c" alt="avatar"
data:image/s3,"s3://crabby-images/fc129/fc129d2e13a0fc0514b8b5742e5af49e36ca4d00" alt="avatar"
data:image/s3,"s3://crabby-images/3f623/3f62385ae5c736ad79c80e63d25104d86380607b" alt="avatar"
data:image/s3,"s3://crabby-images/83931/839313058af0fa9a8a029dbabd23d9a1477474d5" alt="avatar"