AudioCLIP:视频数据三种模态对比学习
Abstract
在文本和图片的基础上加上了audio这个模态,使用音频集数据集将ESResNeXt音频模型合并到CLIP框架中
Model
![avatar](https://blog-img-1259433191.cos.ap-shanghai.myqcloud.com/AudioCLIP/fig1.png)
找了一些视频的数据集,视频里是存在文本,图片和音频三种模态的,就仿照CLIP的结构全加进来就行,这些数据都是成对出现的,所以很好做对比学习
Result
![avatar](https://blog-img-1259433191.cos.ap-shanghai.myqcloud.com/AudioCLIP/tab3.png)
![avatar](https://blog-img-1259433191.cos.ap-shanghai.myqcloud.com/AudioCLIP/tab4.png)
在文本和图片的基础上加上了audio这个模态,使用音频集数据集将ESResNeXt音频模型合并到CLIP框架中
找了一些视频的数据集,视频里是存在文本,图片和音频三种模态的,就仿照CLIP的结构全加进来就行,这些数据都是成对出现的,所以很好做对比学习