目标检测论文解读9——R-FCN

zoukankan html css js c++ java

目标检测论文解读9——R-FCN

背景

　　基于ResNet 101的Faster RCNN速度很慢，本文通过提出Position-sensitive score maps(位置敏感分值图)来给模型加速。

方法

　　首先分析一下，为什么基于ResNet 101的Faster R-CNN很慢？

　　其实主要的原因是ROI Pooling层后面的Conv5无法共享计算，每一个RoI都要计算一次，一次检测RoI可能有几百个，计算量巨大。

　　我们已经知道Conv层的作用是提取特征，那为什么不跟把Conv5放到RoI Pooling前面，让RoI映射到Conv5输出的feature map呢？

　　这是因为Conv5会使feature map进一步压缩，w*h变小，feature map小了，位置敏感性显然会降低，从而检测的结果不准。

　　于是，作者提出了一种兼顾速度和准度的结构。

　　　　

　　观察上面的模型，我们可以看到，在RoI pooling层后面用来提取特征的Conv层都放到前面了，所以共享了计算，速度加快。

　　同时，作者提出一种Position-sensitive score maps的方法来解决位置信息丢失，大致是这样的。

　　原图片经过一系列的Conv层，输出一个channel为k*k*(C+1)的feature map，k=3,代表一张图片的九宫格各位置，C为类别数。可以看到feature map的每一个点，都是k*k*(C+1)-d的feature vector，其中包含了这个点在某位置且为某类的得分信息。

　　RPN提出的RoI，映射到feature map中，也被分为k*k个bin。

　　接下来，进行一次Position-sensitive RoI pooling(位置敏感池化)操作。步骤如下：找到一个左上角的bin，然后找到他所对应的(C+1)-d的类别得分信息，可以对w*h的bin的类别信息进行平均池化，得到一个(C+1)的类别信息；其他8个位置也按照同样步骤。

　　经过这一步，就能得到一个k*k*(C+1)的feature map，再对k*k个(C+1)的vector平均一次(论文用的方法)，得到(C+1)的vector，softmax返回一个概率最大的类别就行了。

总结

　　可以看到，之所以作者的方法之所以位置精度高，主要是因为他把问题从给一个RoI分类转变成了给一个RoI的九个位置分类，从而提高了位置敏感度。

查看全文

相关阅读:
再来五道剑指offer题目
 高强度学习训练第十天总结：Class文件
 windows linux 子系统及windows terminal的使用。
从植物大战僵尸开始一步一步带你入门逆向工程，
高强度学习训练第九天总结：5道剑指offer的题目
 高强度学习训练第八天总结：MySQL的一些优化
 JVM的一些工具的简要使用
 手把手教你使用Java实现一个神经网络
 指定路径创建文件，并写入数据
 c#创建windows服务（代码方式安装、启动、停止、卸载服务）

原文地址：https://www.cnblogs.com/xin1998/p/11385595.html