zoukankan      html  css  js  c++  java
  • Fast R-CNN

    Fast R-CNN

    和R-CNN是同一位作者

    ICCV'15

    paper:Fast R-CNN

    亮点

    • 引用ROI pooling,可以输入任意尺寸的图像
    • region proposal在特征提取之后,可以共享卷积层部分的参数
    • 分类部分换成全连接层softmax
    • loss是分类+框回归的联合,不用分别训练

    网络结构

    R-CNN的缺点

    • 多阶段
    • 生成候选框太慢
    • 特征提取和还有SVM分类器和框的回归会要求很需求内存,速度也慢

    整体结构

    Region Proposal

    和R-CNN一样通过select search提取2000个框。随后和真实GT比较,IOU大于0.5的为正样本,0.1~0.5为负样本,小于0.1为hard example mining样本。

    提取IOU前64个候选框作为训练样本,对于多目标图片,候选框和每个GT计算IOU,取最大值

    最后的候选框会映射到特征图上的一块区域。

    特征提取

    VGG16

    因为候选框在RoI池化层输入,因此特征提取部分参数共享了。

    Mini-batch

    N是输入图像数量-超参数(2)

    R是所有RoI数量-超参数(128)

    每张图像上ROI的数量为R/N(64)

    (比R-CNN快64倍,64个ROI的特征提取部分相同)

    RoI池化

    把候选框映射得到的特征区域按照超参数划分为7*7(假设超参数为7,7)大小的网格(对每个网格内的特征块计算maxpooling),得到统一大小的输出。

    联合损失

    将分类损失和框回归损失结合起来了

    joint loss

    NMS

    最后的结果还是会用到NMS

    检测

    检测时还是将2000个候选框同时映射到特征图上,最后得到的结果用NMS过滤

    这里有个SVD的操作用来缓解计算压力

    缺点

    select search:只能在CPU上运行,速度慢

  • 相关阅读:
    1022词法分析实验总结
    1008词法分析
    0909对编译原理的理解
    【Windows】如何判断当前鼠标是否按下左键或右键
    【Delphi】从内存(MemoryStream)使用WMP(WindowsMediaPlayer)控件播放视频音频(Play Video with WMP from MemoryStream)
    计算机基础
    对接微信公众号
    排序与搜索
    二叉树
    3- 面向对象进阶
  • 原文地址:https://www.cnblogs.com/xiaowk/p/15153849.html
Copyright © 2011-2022 走看看