RFCN的核心是通过修改roi pooling的位置,来增加共享参数的层,减少运算时间;
roi pooling位置的影响如下:
- 越靠近 Input - 对应 ROI-Wise 检测子网越深,准确度也就越高;
- 越靠近 Output - 对应 ROI-Wise 子网越浅,针对每个 ROI 计算量就越小,效率提高;
而修改roi pooling位置到整个网络最后端的理由则是:
RoI pooling 的插入,打破了原卷积网络的平移不变性,所以用新的方法来弥补;
采用Position Sensitive 的 Score Map,Score Map 包含了位置信息
从基础cnn提取的feature maps通过k^2(c+1)维的卷积核生成position sensitive score map,
然后通过roi pooling对roi分成k^2个区域,每个区域分别对应每个位置敏感得分图所定的某个特定位置;
网络结构核心部分score map如下:
实现过程,网络的结构如图:
21总类别,8坐标的个数。score mpa和bbox map的区别就在于每张图的维度不同,其他都一样。