zoukankan      html  css  js  c++  java
  • 目标检测论文解读4——Faster R-CNN

    背景

      Fast R-CNN中的region proposal阶段所采用的SS算法成为了检测网络的速度瓶颈,本文是在Fast R-CNN基础上采用RPN(Region Proposal Networks)代替SS。

    方法

      

      从图中我们可以看到,RPN的输入为最后一个Conv层输出的feature map,输出为一系列ROI,后面的过程就跟Fast R-CNN一样了。

      所以在这里我们只需要了解RPN是如何工作的。

       

      论文里有这样一张图,讲解了RPN的过程(注意后面的k不是千,而是代表每个特征点要预测的anchors个数)。但我觉得可能很多人看到这张图都难以理解,本人也是结合模型的网络结构才理解的,所以我在这里更通俗地解释一下。

      

      论文上的图有点抽象,屏蔽了很多细节部分,初学者看的话可能会似懂非懂,从网络结构上看的话那么RPN的原理就非常清晰了。

      假设每个点预测9个Anchor,即k=9

      (1)首先,原图片经过一系列卷积,会得到一个feature map,即左下角的256*h*w的FM,作为ROI pooling和RPN的输入;

      (2)RPN网络中,256*h*w的FM,先经过256*3*3 Conv+Relu,得到一个新的256*h*w的FM(注意:这里pad=1,所以h和w不变),这个步骤对应论文图中的3*3的sliding window;

      (3)新的256*h*w的FM经两个分支,一个是18*1*1 Conv,代表前背景分类分支,输出一个18*h*w的FM,用来预测特征图的每个点所对应的Anchors是为前景还是背景;

      (4)另一个是36*1*1 Conv,代表坐标回归分支,输出一个36*h*w的FM,用来预测特征图的每个点所对应的9个Anchors坐标需要调整的大小;

      (5)把上面两种预测综合一下,就能得到预测的候选框了,后面的步骤就跟Fast R-CNN一样了。

    总结

      Faster R-CNN = RPN + Fast R-CNN

  • 相关阅读:
    【python】元组
    【python】列表
    1-读书的网站
    35-Python
    34-TypeError: BoxSizer.AddSpacer(): argument 1 has unexpected type 'tuple'
    33-wxpython多个frame之间的信息共享
    32-python代码打包成exe文件-pyinstaller
    31-字符串转为 url 格式的两种不同情况
    30-python3 中 bytes 和 string 之间的互相转换
    9-eclispe中右键BuildPath没有了
  • 原文地址:https://www.cnblogs.com/xin1998/p/11375688.html
Copyright © 2011-2022 走看看