Multi-Fiber Networks for Video Recognition (MFNet)

zoukankan html css js c++ java

Multi-Fiber Networks for Video Recognition (MFNet)

Motivation：减少时空网络的计算量，保持视频分类精度的基础上，使速度尽可能接近对应网络的2D版本。

为此提出 Multi-Fiber 网络，将复杂网络拆分成轻量网络的集成，利用 fibers 间的信息流引入多路器模块。

Result：比I3D和R(2+1)D分别少9倍，13倍的计算量，但精度更高，UCF-101, HMDB-51 and Kinetics 上的 state of the art。

2D网络需要10s GFLOP来处理单帧，3D网络需要100s GFLOP处理一个clip，作者认为3D网络有能力进一步提高因为融入了时空信息。

3D卷积开销很大，与Du tran和Xie Saining提出的R(2+1)D和S3D用1x3x3, 3x1x1时空分解卷积替代3x3x3这种做法不同，因为相对其2D版本仍有数量级的复杂度，以上两种方法很难在实际应用，受low-power MobileNet-v2网络的启发以及通过分组卷积稀疏化做法的启发，作者提出稀疏连接结构，并在2D CNN图片分类上实验确认结构的有效性，后扩展为时空CNN。

(a) resnet block (b) resNeXt block (c) fibers(author) (d) 加入multiplexer 传递不同fiber间信息 (e) 两个线性层降维和升维

resNeXt的中间模块对通道分组后分别用3x3卷积，bottleneck结构+分组卷积会很大程度降低计算量。d中可以看出去除了对整个通道的1x1卷积(全连接)，引入了multiplexer层弥补信息损失，将主干feature的channel全部分组后，平行的残差计算，其中每一个分支称为(fiber)

resnet两个conv的简化连接数计算，其中Min表示输入channel，Mmid，Mout等同：

如果这个运算单元channel的维数增加k倍，那么运算量将增加K的平方倍。反之，减小也是2次的减小。

对channel切分为N个并行且独立的模块后，总的简化连接的数量，可见是直接resnet模块的1/N倍，实验中N=16。

Multi-Fiber Networks

2D图片域的验证：

1. 基于ResNet-18和MobileNet-v2的baseline，将其中的模块替换为多纤维模块

2. 重新设计了一个2D MF-Net

可以看出，Multi-Fiber结构在ResNet-18和MobileNet-v2上可以在少量降低计算量和参数量的情况下，精度上有一定提高，表明模块的有效性。而MF-Net也在参数和计算量较低的情况下达到了不错的效果。最后一栏实验则表明了Multiplexer模块大概会占据30%的计算量，但对效果的提升也是比较明显的。

3D版本

为了降低计算量，两层卷积只有一层进行了时序上的卷积

UCF101和HMDB51上的结果

Kinetics分类结果分析

在400类中有190类准确率超过80%，349类超过50%。只有17类低于30%效果糟糕。

特别的是那些准确率高的类，其特点：

1. 相对别的类有特殊的物体/背景

2. 跨越较长时间所发生的特殊动作

识别不好的类，其特点：

通常没有可区分的物体或在长视频中目标动作持续很短

部分参考自：

知乎林天威

查看全文

相关阅读:
线性筛素数
 m个苹果放入n个盘子问题
 幸运的袋子
 [HNOI2013]消毒
 [SDOI2016]数字配对
 [SCOI2015]小凸玩矩阵
 [JLOI2008]将军
 [HEOI2016/TJOI2016]游戏
 [洛谷4329/COCI2006-2007#1] Bond
[BZOJ1324]Exca王者之剑

原文地址：https://www.cnblogs.com/demian/p/9795309.html