Temporal Segment Networks

zoukankan html css js c++ java

Temporal Segment Networks
- 摘要
- 介绍
- BN-Inception 结合双流网络
- TSN在双流上改进
  
  双流的缺陷：空域-RGB单帧，时域-短的snippet堆叠帧的输入使得
  
  无法处理长时序结构
  
  复杂运动及跨时间多阶段动作很难处理
- 对一个视频，切分为K 个等长片段 {S1, S2, · · · , SK}，从每一个片段中随机抽取一个短的snippet，过双流，不同snippet的分类得分通过片段聚合函数聚合成最后的视频分类的得分，双流融合产生最后的结果
- T表示不同snippet，F表示CNN双流提特征，G是融合函数，H是softmax
- Loss：，标准类别交叉熵损失
- 聚合函数
  
  平均 (最好) 对所有snippet的属于同一类别的得分做个均值
  
  取最大
  
  加权平均
提特征的参数W的导数可以看出，tsn网络的是从视频整体进行参数学习，不是针对特定某个短的snippet。　

网络结构：

　　 BN-Inception作为双流的基础结构，RGB：一张rgb图，光流：堆叠的光流场

几种策略减少训练时过拟合

1 跨模态pretrain:

rgb直接用imageNet就好，光流的数据分布明显不同，不能直接用rgb model pretrain optical flow model.

先线性变换，将光流离散化为0-255，修改第一个卷积层的权重，rgb通道的权重取平均后沿着光流通道数复制，从而初始化光流网络。

2 partial BN正则化:

bn，估计batch数据中的均值和方差，从而将激活值转化为标准化正太分布，加速模型收敛，由于数据量的原因可能导致过拟合，所以实验采用，除了第一层， freeze 其他层 BN 中的 mean 和 variance 参数。

在全局池化后面加了dropout

3 数据增广

random cropping, horizontal flipping

New: corner cropping and scalejittering

　　　　4 corners and 1 center 防止过于关注图片中心区域。

　　　　先将rgb或光流resize到256×340，长宽在{256, 224, 192, 168}中随机选，crop后resize到224 × 224，送入网络训练

修改版Caffe和OpenMPI，多卡并行加速训练，4块TITANX，训练时间UCF101 is around 2 hours for spatial TSNs and 9 hours for temporal TSNs。
查看全文

相关阅读:
New starting
Ubuntu中PyCharm中字体设置
 pyshp操作shapefile
GIS的数学基础
 向mysql中插入Date类型的数据
 mysql多字段排序
 干掉命令行窗口下MySql乱码
 JavaWeb中读取文件资源的路径问题
 Java中9种IO的读取方式
 JavaIO 将数据写入到文件中去

原文地址：https://www.cnblogs.com/demian/p/9616211.html