视频识别，小，小，小综述~

zoukankan html css js c++ java

视频识别，小，小，小综述~
【胡扯】：最近一周一直在忙着做视频识别的项目，前期对视频完全小白，最近复现了cvpr 2018 上面的一篇文章，效果还行，下周把自己的思路加上网络，进行训练，看看效果如何，我想应该效果不错，因为我是大佬呀~~~哈哈。这篇博文只是一些简单的综述，换言之也是我这周的学习之旅，就做个总结吧。
一：数据集介绍
我们这里主要介绍常用的大点的数据集，像KTH 这种小的，咱就不说了。
1. UCF 101 数据集
  其实也没啥介绍的，就是101种视频，现在CVPR 最高的结果好像是>93.4% 效果还是不错的。
  官网：UCF101
  使用方式：UCF101的处理与加载
2. HMDB51数据集
  这个数据集最难，现在最高的识别率也就82%左右，其实我感觉主要数据量太少了，如果这个数据集能扩充，估计效果还行，有没有小伙伴去干这件事情呢，我的意思是只针对这51种视频，数据量（double kill、 triple kill、quadra kill、penta kill）原谅我是moba 游戏粉呢。如果数据量充分，我想我后面介绍的几种思路的结果应该可以更上一层楼。
  官网：HMDB51
3. Kinetics数据集
  这个数据集最重要，谷歌在youtube上搞的，相当于视频届的imagenet。众所周知，imagenet训练的参数拿过来迁移学习在大部分数据集上都能得到好的效果，哈哈，聪明的人大概就能猜出来这个数据集的妙用了吧。为什么，因为它大呀，现在有600种类别了。详细的自己去官网看吧。
  官网：kinetics
  二：主流方法
  1：CNN+LSTM 方法
  这个思路其实很朴素，在image caption中现在最先进的一类方法就是在这个加上attention model。
  方法如下：
  
  视频嘛，说白了就是由很多图片组成的，只是这些图片有个特点就是有很强的时序性，那么这就好办了啊，抽取特征，然后代入RNN 或者LSTM，最后进行预测，这个想法很直接，但是目前的效果不太好，不过这个时序的思想，可以借用。
  2：3D-ConvNet
  这个就是传统的卷积上加了一维用于预测时序，以前的卷积核是这样（Kxk),现在的卷积核是这样（kxkxk）变成了三维的，最后一维就是时序，框架如下：
  
  但是这个方法有个缺点就是参数特别巨大，而视频这一块的数据量不够，也不能这么说，就是被清洗干净的数据集太少了，希望有李飞飞那样的大佬出来，出一个更大的数据集。
  3 Two-stream
  双流型：
  
  如上图，视频可以很自然的被分为空间部分和时间部分，空间部分主要对应单张图像中的 appearance，传递视频中描述的场景和物体的相关信息。时间部分对应连续帧的运动，主要用最基本的光流法，有兴趣的小伙伴可以去研究下，包含物体和观察者（相机）的运动信息，之后直接进行特征相连进行分类（这里没有融合，之后这篇文章的下文就进行了融合）。这篇文章是2014NIPS上发表的：
  Two-Stream Convolutional Networks for Action Recognition in Videos
  下面的图是论文额框架，更加清晰：
  
  4：3D-Fused two-strean
  框架：
  
  这个用3D convNet的融合策略不一定是最好的，相信这里还有很多研究的机会。关于这个，大家可以仔细去看这篇文章。
  Convolutional Two-Stream Network Fusion for Video Action Recognition
  
  5：two-stream 3D-ConvNet
  这个方法的思路也比较自然，结合了第二种结构和第三种结构，如图：
  
  把一段视频分成n个K帧大小的视频流，然后分别用两个3D 卷积进行apperance 和光流进行特征抽取，在连接成一组新的特征，作为最后的识别特征，这个方法的缺点还是参数太多，咱们的数据集太小，容易过拟合，但是kinetics出来，很好的解决了这个问题，所有这个方法是现在最好的。
  结尾
  写的不是太多，也不详细，只是粗略地整理了下思路。
  思路点1：识别动作，无非就是时间与空间的协调性，如何处理这两者的关系。
  思路点2：两者的融合问题。
  思路点3：我感觉视频里的多余动作如何进行有效隔离，这个是研究的重点。、
  
  视频动作识别的应用：
  色情视频过滤 (现在直播平台的色情主播呀）
  暴恐视频过滤
  涉政视频过滤
  违规MD5库 (这个我不太懂哎，有知道的，可以告诉我呀~~)
查看全文

相关阅读:
第八周进度条
 对老师的评价
 构建之法阅读笔记03
构建之法阅读笔记02
第七周进度条
 团队冲刺第二周07
团队冲刺第二周06
Java jdbc 连接oracle
Java 生成验证码
 Oracle 触发器的简单命令

原文地址：https://www.cnblogs.com/xiaohuahua108/p/9497431.html

视频识别，小，小，小综述~

一： 数据集介绍

UCF 101 数据集

HMDB51数据集

Kinetics数据集

二： 主流方法

1：CNN+LSTM 方法

2：3D-ConvNet

色情视频过滤 (现在直播平台的色情主播呀）

暴恐视频过滤

涉政视频过滤

违规MD5库 (这个我不太懂哎，有知道的，可以告诉我呀~~)

一：数据集介绍

二：主流方法