CVPR-2015 Beyond Short Snippets：Deep Networks for Video Classification

2022-04-17 PaperNote CV 0 0 Comments Word Count: 398(words) Read Count: 1(minutes)

论文地址：Beyond Short Snippets：Deep Networks for Video Classification

来自谷歌的工作

稍长的视频处理：池化和LSTM在视频理解的作用

Abstract

提出两种方法处理长的视频，一是尝试了不同的池化操作，二是采用LSTM链接CNN的输出

Apporach

如果按照双流网络的思想去做，原始视频就几帧就太短了，如果有特别多的帧怎么办呢？

首先对于所有的帧肯定是要去抽特征，比如原始的手工或卷积神经网络，关键在于抽取到特征之后怎么去做pooling这个操作，可以简单的做一个max或average，这篇文章对这个做了很多的探索，最终的结论表示都差不多，ConvPooling最好。以及尝试了用LSTM去做特征融合，但实际上提升有限

每个视频帧对应一个卷积网络（权值共享）去抽取特征，用了五层LSTM，最后softmax

Result

在Sorts-1M数据集上LSTM没有想象中那么有用，可能是因为LSTM学到的东西比较high-level，视频即使帧比较多还是比较短，在这种情况下实际上语义信息并没有太多改变，相当于传了一些差不多的内容给LSTM，说实话LSTM可能也学不到什么，最终也就带不来很大的提升。在变化比较剧烈的情况，或者长视频上，LSTM应该还是有一定意义的

在UCF-101效果就都只是好了一点，提升非常有限

本文链接： https://tyang816.github.io/2022/04/17/Beyond Short Snippets：Deep Networks for Video Classification/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

Yang Tan

Master Student @ECUST

CVPR-2015 Beyond Short Snippets：Deep Networks for Video Classification

稍长的视频处理：池化和LSTM在视频理解的作用

Abstract

Apporach

Result

Yang TanMaster Student @ECUST