ICML-2021 Is Space-Time Attention All You Need for Video Understanding

论文地址:Is Space-Time Attention All You Need for Video Understanding

Timesformer:详细实验迁移vit到视频理解

Abstract

把vision transformer迁移到视频理解领域来

Method

avatar

作者尝试了以上五种结构

  • S

    • 只在空间特征图做自注意力,就是图像里vision transformer用的自注意力
  • ST

    • 比较暴力做法,视频三个维度一起做自注意力,但太大了,GPU塞不下
  • T+S

    • 本文的主要方法,拆分了3D,先做时间自注意力再做空间
  • L+G

    • 先局部小窗口算,再全局,降低了复杂度
  • T+W+H

    • 只沿着特定的轴去做自注意力,把三维变成了1+1+1维,复杂度也降低了
avatar

这图画的非常好,蓝色的patch表示基准,然后和其他的patch做注意力,绿色表示时间注意力,黄色是局部和轴,紫色是全局和轴

Experiment

avataravatar

光用2D的在k400效果比较好是因为这个数据集本身偏向静态的,换在ssv2效果就不好了,还是要考虑时间维度的

joint的方法虽然好,但是随着视频帧变多开销非常大,灰色是爆显存了,没法训练了

avatar

训练时间少,推理速度快,但效果实际上不算是最好的,slowfast如果换res101在k400可以达到80以上

把Timesformer变大也达到了SOTA

Conclusion

四个好处

  • 想法简单
  • 效果在几个动作识别都达到了SOTA
  • 训练推理开销小
  • 可以处理超过1分钟的视频