zoukankan      html  css  js  c++  java
  • 视频识别,小,小,小综述~

    【胡扯】:最近一周一直在忙着做视频识别的项目,前期对视频完全小白,最近复现了cvpr 2018 上面的一篇文章,效果还行,下周把自己的思路加上网络,进行训练,看看效果如何,我想应该效果不错,因为我是大佬呀~~~哈哈。这篇博文只是一些简单的综述,换言之也是我这周的学习之旅,就做个总结吧。

    一: 数据集介绍

    我们这里主要介绍常用的大点的数据集,像KTH 这种小的,咱就不说了。

    1. UCF 101 数据集

      其实也没啥介绍的,就是101种视频,现在CVPR 最高的结果好像是>93.4% 效果还是不错的。

      官网:UCF101

      使用方式:UCF101的处理与加载

    2. HMDB51数据集

      这个数据集最难,现在最高的识别率也就82%左右,其实我感觉主要数据量太少了,如果这个数据集能扩充,估计效果还行,有没有小伙伴去干这件事情呢,我的意思是只针对这51种视频,数据量(double kill triple killquadra killpenta kill)原谅我是moba 游戏粉呢。如果数据量充分,我想我后面介绍的几种思路的结果应该可以更上一层楼。
      官网:HMDB51

    3. 这个数据集最重要,谷歌在youtube上搞的,相当于视频届的imagenet。众所周知,imagenet训练的参数拿过来迁移学习在大部分数据集上都能得到好的效果,哈哈,聪明的人大概就能猜出来这个数据集的妙用了吧。 为什么,因为它大呀,现在有600种类别了。详细的自己去官网看吧。

      官网:kinetics

      二: 主流方法

      1:CNN+LSTM 方法

      这个思路其实很朴素,在image caption中现在最先进的一类方法就是在这个加上attention model。

      方法如下:

      视频嘛,说白了就是由很多图片组成的,只是这些图片有个特点就是有很强的时序性,那么这就好办了啊,抽取特征,然后代入RNN 或者LSTM,最后进行预测,这个想法很直接,但是目前的效果不太好,不过这个时序的思想,可以借用。

      2:3D-ConvNet

      这个就是传统的卷积上加了一维用于预测时序,以前的卷积核是这样(Kxk),现在的卷积核是这样(kxkxk)变成了三维的,最后一维就是时序,框架如下:

      但是这个方法有个缺点就是参数特别巨大,而视频这一块的数据量不够,也不能这么说,就是被清洗干净的数据集太少了,希望有李飞飞那样的大佬出来,出一个更大的数据集。

      3 Two-stream

      双流型:

      如上图,视频可以很自然的被分为 空间部分和时间部分,空间部分主要对应单张图像中的 appearance,传递视频中描述的场景和物体的相关信息。时间部分对应连续帧的运动,主要用最基本的光流法,有兴趣的小伙伴可以去研究下,包含物体和观察者(相机)的运动信息,之后直接进行特征相连进行分类(这里没有融合,之后这篇文章的下文就进行了融合)。 这篇文章是2014NIPS上发表的:

      Two-Stream Convolutional Networks for Action Recognition in Videos

      下面的图是论文额框架,更加清晰:

       

      4:3D-Fused two-strean

      框架:

      这个用3D convNet的融合策略不一定是最好的,相信这里还有很多研究的机会。关于这个,大家可以仔细去看这篇文章。

      Convolutional Two-Stream Network Fusion for Video Action Recognition

       

      5:two-stream 3D-ConvNet

      这个方法的思路也比较自然,结合了第二种结构和第三种结构,如图:

      把一段视频分成n个K帧大小的视频流,然后分别用两个3D 卷积进行apperance 和光流进行特征抽取,在连接成一组新的特征,作为最后的识别特征,这个方法的缺点还是参数太多,咱们的数据集太小,容易过拟合,但是kinetics出来,很好的解决了这个问题,所有这个方法是现在最好的。

      结尾

      写的不是太多,也不详细,只是粗略地整理了下思路。

      思路点1:识别动作,无非就是时间与空间的协调性,如何处理这两者的关系。

      思路点2:两者的融合问题。

      思路点3:我感觉视频里的多余动作如何进行有效隔离,这个是研究的重点。、

       

      视频动作识别的应用:

      色情视频过滤 (现在直播平台的色情主播呀)

      暴恐视频过滤

      涉政视频过滤

      违规MD5库 (这个我不太懂哎,有知道的,可以告诉我呀~~)

  • 相关阅读:
    笨办法29IF语句
    笨办法28布尔表达式
    笨办法27记住逻辑
    笨办法26恭喜你,可以进行一次考试了
    笨办法25更多更多的练习
    笨办法23复制文件
    成功转移(✿◡‿◡)
    笨办法22到目前为止你学到了什么?
    vue.js
    webpack-优化
  • 原文地址:https://www.cnblogs.com/xiaohuahua108/p/9497431.html
Copyright © 2011-2022 走看看