基于候选区域的目标检测器
1. 滑动窗口检测器
根据滑动窗口从图像中剪切图像块-->将剪切的图像块warp成固定大小-->cnn网络提取特征-->SVM和regressor进行分类和回归定位
选择性搜索
2. R-CNN
R-CNN 利用候选区域方法创建了约 2000 个 ROI --> 将每个ROI区域warp成固定大小的图像--> CNN网络提取特征--> SVM和regressor进行分类和回归定位;
3. Fast R-CNN
Fast R-CNN 使用特征提取器(CNN)先提取整个图像的特征(而不是从头开始对每个图像块提取多次)--> 在特征图上,利用候选区域方法得到ROI区域,并在对应的特征图上裁剪以得到特征图块--> 将这些特征图块warp成固定大小--> 输入CNN网络提取特征--> svm/regressor 进行分类和回归;
4. Faster R-CNN
Faster R-CNN 采用与 Fast R-CNN 相同的设计,只是它用内部深层网络代替了候选区域方法。新的候选区域网络(RPN)在生成 ROI 时效率更高,并且以每幅图像 10 毫秒的速度运行。
参考:https://baijiahao.baidu.com/s?id=1598999301741831102&wfr=spider&for=pc
https://blog.csdn.net/weixin_43198141/article/details/90178512
问题1:如何理解Faster RCNN算法框架中,回归Loss和分类Loss一起训练,计算损失?
1)建议框P与Ground Truth边框的IOU越大,其对应的特征匹配度越高,计算的分类置信度得分越高;
2)边框回归的目的是让预测的边界框Pt与GT边框尽可能的接近,那么两者的IOU将会变大(理想情况下为1,两框完全重合),其对应的特征匹配度越高,计算的分类置信度得分越高,分类的Loss越少;
3)反过来,如果分类的Loss越小,说明其对应的特征匹配度越高,则预测目标的边框与GT的边框的IOU越大,即两边界框越接近,那么两边界框的偏移量越小,其对应的回归Loss越小。
4)也就是说回归Loss和分类Loss相互制约、影响关联,放在一起训练的目的就是保证分类准确的同时,定位尽可能精确.
参考:https://www.cnblogs.com/wangguchangqing/p/10393934.html
https://www.cnblogs.com/wangyong/p/8513563.html