zoukankan      html  css  js  c++  java
  • spatial-temporal information extraction典型方法总结

    ====================================

    咳咳咳

    由于科研的直接对象就是video sequence,所以,如何更好地提取spatial-temporal information至关重要。
    so,总结了一下以前看过的,包括现在正在复现的paper 中的idea。

    1. LSTM

    L. Jiang, M. Xu, and Z. Wang. Predicting video saliency with object-to-motion CNN and two-layer convolutional LSTM. CoRR, abs/1709.06316, 2017.
    

    论文在 这里., 源码在这里

    这篇是two stream+lstm实现video saliency最早的一篇论文了应该,虽然当时也是想到这种方法,但是,速度太慢。。。人家结果都出来了,emmmmm,所以说,想法很重要,快速实现也很重要。

    2. 3D CNN的扩展

    Du Tran, Heng Wang, Lorenzo Torresani, Jamie Ray, Yann LeCun, Manohar Paluri, A Closer Look at Spatiotemporal Convolutions for Action Recognition,CVPR2018
    
    

    论文在 这里., 源码在这里
    作者将3D CNN替换成了连续的两次卷次操作(2D空间卷积+1D时间卷积)

    好处:
    1. 一次操作变成两次,double了激活次数,有利于增强模型表达能力;
    2.有利于模型训练,3D CNN将时序特征和空间特征提取混在一起,相互干扰,不利于模型的训练。
    

    未完待续,其他看过的都是大同小异,离不开LSTM,看到更好地能对自己有新的提示的好文再来更新~~

  • 相关阅读:
    Click: 命令行工具神器
    Pipenv: Python包管理神器
    如何让你的Python程序支持多语言
    Volatile变量
    简单排查java应用CPU飙高的线程问题
    java中的clone
    接口限流
    HTTP协议详解
    [转]nginx 源码学习笔记(十五)—— ngx_master_process_cycle 多进程(一)
    nginx slab内存管理
  • 原文地址:https://www.cnblogs.com/zzq-123456/p/10026714.html
Copyright © 2011-2022 走看看