Fast R-CNN
和R-CNN是同一位作者
ICCV'15
paper:Fast R-CNN
亮点
- 引用ROI pooling,可以输入任意尺寸的图像
- region proposal在特征提取之后,可以共享卷积层部分的参数
- 分类部分换成全连接层softmax
- loss是分类+框回归的联合,不用分别训练
网络结构
R-CNN的缺点
- 多阶段
- 生成候选框太慢
- 特征提取和还有SVM分类器和框的回归会要求很需求内存,速度也慢
整体结构
Region Proposal
和R-CNN一样通过select search提取2000个框。随后和真实GT比较,IOU大于0.5的为正样本,0.1~0.5为负样本,小于0.1为hard example mining样本。
提取IOU前64个候选框作为训练样本,对于多目标图片,候选框和每个GT计算IOU,取最大值
最后的候选框会映射到特征图上的一块区域。
特征提取
VGG16
因为候选框在RoI池化层输入,因此特征提取部分参数共享了。
Mini-batch
N是输入图像数量-超参数(2)
R是所有RoI数量-超参数(128)
每张图像上ROI的数量为R/N(64)
(比R-CNN快64倍,64个ROI的特征提取部分相同)
RoI池化
把候选框映射得到的特征区域按照超参数划分为7*7(假设超参数为7,7)大小的网格(对每个网格内的特征块计算maxpooling),得到统一大小的输出。
联合损失
将分类损失和框回归损失结合起来了
NMS
最后的结果还是会用到NMS
检测
检测时还是将2000个候选框同时映射到特征图上,最后得到的结果用NMS过滤
这里有个SVD的操作用来缓解计算压力
缺点
select search:只能在CPU上运行,速度慢