zoukankan      html  css  js  c++  java
  • 基于视频的目标检测调研 2017-10-25

    视频目标检测调研

    1.主要问题:

    与图像目标检测的主要区别是:

    • 视频信息具有大量冗余,这些冗余会如果能合理的利用或者去除,会大大提高处理速度;
    • 视频信息中的目标经常会出现变形、遮挡、模糊,这会导致检测结果的不稳定,出现漏检。

    2.基本方法:

    - 基于单帧图像的

    - 结合上下文和时间信息的:

    • 双流法
    • 三维卷积
    • 基于流特征的
    • LSTM

    3.基于单帧图像的视频检测方法

    基于单帧的视频图像处理方法目前已经研究的很多。主流的方法有R-CNN的系列方法,如:Faster R-CNN;基于回归的方法,如YOLO、SSD。具体特点不详述。

    4.结合上下文和时间信息的方法

    4.1双流法:T-CNN

    对图像的处理在中间分为两个流程:一个流程处理单帧图像信息;一个流程处理时间图像信息。其思想是将检测和追踪结合起来,将已有的方法结合起来了。其处理帧率约在10fps左右。
    T-CNN

    4.2三维卷积方法:C3D

    将视频图像流作为图像处理整体,使用三维卷积对其做深度学习,将空域特征和时域特征同时提取,该方法相比传统的2D方法,能有效的利用时间信息来增加区分度,效率有明显的提高,基于VGG系列的网络帧率可达到313FPS。

    4.3基于流特征的方法:DFF和FGFA

    基于流特征的方法挺多,这里说的方法是MSRA(MicroSoft Research Asia)提出的两种方法Deep Feature Flow(深度特征流)和Flow Guide Feature Aggregate(流指导特征融合)。
    DFF方法是对关键帧做特征提取,其他帧没有特征提取网络,只运行任务网络。以此通过流特征来节省处理时间。其帧率可达到20-30fps,需要根据检测精度做权衡。
    DFF
    FGFA方法是在部分中间帧的特征不明显时,使用前后帧的特征进行融合来获取当前帧的特征图,以此来提高检测效果。其帧率在25-30fps左右。
    FGFA

    4.4基于长短程记忆的方法:LSTM

    我还没有仔细研究,基本原理可能是引入了记忆模块,可以用短程甚至长程的特征来辅助当前帧进行快速特征提取。

  • 相关阅读:
    水晶报表常见问题
    winform post xml 并获取返回xml
    C#操作INI文件
    将Stream转换成String,将String转化成Stream
    winform异步监听POST请求
    winform异步获取POST过来的XML
    C#读取XML C#写入XML
    XDocument转XmlDocument ,XmlDocument转XDocument 静态扩展方法
    C#读取XML节点
    Java 字符转码之UTF8转为GBK/GB2312
  • 原文地址:https://www.cnblogs.com/Osler/p/8427889.html
Copyright © 2011-2022 走看看