CLIP-ViL:CLIP在视觉下游任务的实验性文章
Abstract
实验性文章,把CLIP拿到多模态来初始化还能继续提高下游vision language task的准确度
Introduction
![avatar](https://blog-img-1259433191.cos.ap-shanghai.myqcloud.com/CLIP-ViL/fig2.png)
主要贡献:第一个大规模的用CLIP预训练好的模型当作视觉编码器的初始化参数,在各种下游任务上做empirical study
Experiments
![avatar](https://blog-img-1259433191.cos.ap-shanghai.myqcloud.com/CLIP-ViL/tab1.png)
![avatar](https://blog-img-1259433191.cos.ap-shanghai.myqcloud.com/CLIP-ViL/tab2.png)
![avatar](https://blog-img-1259433191.cos.ap-shanghai.myqcloud.com/CLIP-ViL/tab3.png)
![avatar](https://blog-img-1259433191.cos.ap-shanghai.myqcloud.com/CLIP-ViL/tab4.png)
![avatar](https://blog-img-1259433191.cos.ap-shanghai.myqcloud.com/CLIP-ViL/tab5.png)
![avatar](https://blog-img-1259433191.cos.ap-shanghai.myqcloud.com/CLIP-ViL/tab6.png)
实验性文章,把CLIP拿到多模态来初始化还能继续提高下游vision language task的准确度
主要贡献:第一个大规模的用CLIP预训练好的模型当作视觉编码器的初始化参数,在各种下游任务上做empirical study