zoukankan      html  css  js  c++  java
  • ACTION-Net论文笔记

      • 一、简介
        • 先介绍了Videos understanding的重要性
        • 接着提出Action recognizes是Videos understanding的关键,指出复杂动作识别不仅仅依赖于空间,而且依赖与时间。而且空间上。具有块空间上相似特征,可能在时间上特征完全相反。指出了传统的模型,只考虑到了空间上的依赖,但是没有考虑到时间依赖性。
        • Two stream 架构比起单纯的3D CNNs来说有更好的空间和时间特性,但是Two stream很昂贵贵,实际应用不太现实。3D CNNs也有过拟合和慢收敛的缺点。而且好多框架都继承了3D CNNs的这种缺点。2D CNNs框架中提到了:TSN(最初的2D CNNs,缺乏时间魔模型的能力,容易丢失关键动作),TSM(缺乏针对明确动作的时间模型)
        • 本篇论文提供了一个即插即用、轻量级的和two stream结构很相似的结构,但是与two stream不同的是,不为了训练网络而产生另外的输入(不太懂,可能Two stream训练网络还要再产生一个输入的吧)
        • Action有三个组成成分:时空激励运算(STE),信道激励运算(CE),和行动激励运算(ME)
        • 第1部分末尾给出了本文Action net的几个研究方面
      • 二、相关工作
        • 基于3D卷积网络框架
          • I3D(Inflated the Convnet)扩展了2D卷积核至3D卷积核,SlowFast可以分别识别视频中的快慢部分。3D卷积网络缺点是:容易过拟合、不容易收敛、计算比2D的要复杂的多。
        • 基于2D卷积的框架
          • TSN(Temporal Segment Networks):引入了segment来处理视频
          • TSM(Temporal Shift Module):在2D CNN中潜入了可以使部分channel转化的操作,但缺乏对动作的显著时间模型
        • 最近几项新的研究可以使得模型能够得到模型和时间信息,而且被证明在ResNet结构上比较高效
        • SENet 和 Beyond
          • SENet:SE(squeeze-and-excitation)嵌入到2D CNNS
          • ActionNet:由STE(Spatio-Temporal Excitation)、CE(Channel Excitation)、ME(Motion Excitation)构成(以平等的方式),这样视频中多种信息会被触发。
      • 三、设置Action网络
        • 符号说明:
          • N: batch size;
          • T: number of segments
          • C: channels
          • H: height
          • W:width
          • r: channel reduce ratio
        • Acrion 模型种所有tensors 都是4维的(N×T,C,H,W),首先将4Dtensors转变成5Dtensors(N,T,C,H,W)送到ACTION中,以便与对ACTION内部的特定tensors进行操作。之后再将5Dtensors 转变为4D放到2D卷积模块中
          • STE
            • M:spattio-temporal mask (N,T,1,H,W)
            • X: 输入向量(N,T,C,H,W)

          • ME

          • CE

          • ACTION-NET

      • 四、实验
        • 数据集:
          • Something-Something V2
          • Jester
          • EgoGesture
        • 执行细节:
          • 训练过程
              • 将视频等长度分成T个片段;之后随机的在每个片段中选择一帧,从而获取到T帧的一个片段。
              • (之后提到了shorter side、cropping、scale-jittering不太懂这些概念,可能意思是将其中一些不太规整帧的尺寸修剪为256像素)。每一帧最终像素被resize为224,用于训练模型。
            • input为:N×T×3×224×224;其中N:batch size、T:片段的数量。
            • 使用当N=64时、T=8,当N=48时,T=16
            • 网络权重默认使用ImageNet预处理的权重
            • 对于Something-Something V2数据集来说,学习率开始为0.01,之后再epoch为30、40、45的时候减少了10倍,最后在epoch为50的时候停止
            • 对于Jester数据集来说,学习率开始为0.01,之后再epoch为10、20、25的时候减少了10倍,最后在epoch为30的时候停止
            • 对于EgoGesture数据集来说,学习率开始为0.01,之后再epoch为5、410、15的时候减少了10倍,最后在epoch为25的时候停止
            • 首先把每帧的短边裁剪为256像素,之后可以得到三个256×256的crops
            • 对整个视频随机采样十次
            • 最后预测的Softmax评分时所有片段的平均值
        • 改善2D CNNs的表现
          • ACTION-NET、TSN、TSM比较
            • 图中Top-1是指,在结果得到的概率中,概率最大的为正确答案则预测正确。Top-5是指,在所有的答案概率中,排名前五有正确答案则为预测正确
          • 与最先进的技术进行比较

            • ACTION-NET 与 TSN、TSM进行比较

              • 提出了一个效率系数:
            • ACTION Block 数量的影响
              • 数量越多,效果越好
          • 效率和灵活度的分析
            • 和TSM一样,是即插即用的,所以可以嵌入到2D卷积神经网络中


      • 结论
        • 能使任何2D神经网络构建Action-Net
        • 从三个大数据集中证明了Action-Net的效率
      •   
  • 相关阅读:
    PetaPOCO 一对多 多对一 多对多
    PetaPoco使用要点
    MySQL_杭州北仓 12.3-12.7需求活动期间累计下单达到3天及以上的客户_20161212
    Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207
    Python 2.7_First_try_爬取阳光电影网_20161206
    MySQL计算销售员昨日各指标综合得分_20161206
    MySQL_关于用嵌套表计算的可以不用 20161205
    MySQL_财务统计各产品品类各城市上周收入毛利表_20161202
    借助取色工具ColorPix对Pycharm编辑器设定自己喜欢的代码颜色_20161202
    python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库_20161201
  • 原文地址:https://www.cnblogs.com/JQbiu/p/14850832.html
Copyright © 2011-2022 走看看