最近两周忙着上网课、投简历,博客没什么时间写,姑且把之前做的笔记放上来把。。。
下面是我之前看论文时记的笔记,直接copy上来了,内容是Fast R-CNN的,以后如果抽不出时间写博客,就放笔记上来(实则偷懒。。。。)
1、改进
- 端到端的学习
- 将图片用选择搜索算法(select search)得到2000个候选区域(RegionProposal)的坐标信息
- 将图片归一化为指定格式,输入 CNN(AlextNet/VGG/ResNet)对图片进行进行特征提取,生成一张特征图
- 将开始得到的坐标信息通过一定的映射关系转换为对应特征图的坐标,截取对应的 RegionProposal
- 对提取出的 RegionProposal 进行 ROIPooling(SPPNet 简化版),将不同尺寸的图像映射为相同尺寸的特征图
- 将上述特征图输入全连接层进行分类
- 定义多任务损失函数,将分类和边框回归融合到一个模块当中
- 使用 Sfotmax 取代 SVM 作为分类器(为了实现端到端的训练)
- 增加了一个与 Softmax 层平行的 LinearRegression 层,用于回归优化边框
2、解决了 R-CNN/SPP-Net 的缺陷
- 训练 & 测试速度慢
- R-CNN 中用 CNN 对每一个候选区域反复提取特征,而一张图片的2000个候选区域之间有大量重叠部分,这一设定造成特征提取操作浪费大量计算
- Fast R-CNN 将整个图像归一化后直接送入 CNN 网络,卷积层不进行候选区的特征提取,而是在最后一个池化层加入候选区域坐标信息,进行特征提取的计算。
- 训练所需空间大
- R-CNN 中目标分类与候选框的回归是独立的两个操作,并且需要大量特征作为训练样本。
- Fast R-CNN 将目标分类与候选框回归统一到 CNN 网络中来,不需要额外存储特征。
- 无法对空间金字塔池之前的卷积层进行更新
- FastR-CNN 可以对所有网络层参数进行更新
3、预训练注意事项
- 预训练时
- 分类器是一个单独的全连接层+Softmax,没有边框回归
- 没有ROI层,取而代之的是一个池化层
- 预训练结束后,进行调优训练时
- 需将分类器替换为并行的【新全连接层1+原softmax层1000个分类输出修改为21个分类输出(20种类+背景)】+【新全连接层2+候选区域窗口回归层】
- 将VGG-16网络最后一层池化层替换为 ROI 层
4、缺点
- 在 CNN 提取后的特征图像上使用 select search 生成 RegionProposal,效率太低,计算量太大
5、ROIPoolling
- 名词解释
- ROI 指的是所提取出的关注区域(Feature map/RegionProposal)
- 原始图片经过多层卷积与池化后(CNN 前向提取特征图),得到整图的 feature map
- 由 selective search 产生的大量 proposal,经过映射所得到其在 feature map 上的映射区域,即 ROI
- ROI 指的是所提取出的关注区域(Feature map/RegionProposal)
- 上述提取出的 ROI 即作为 ROI Pooling 层的输入
- ROIPolling 流程(如下图 )
- 将输入的(h,w)的 ROI 分割成(H,W)的子窗口
- 每个子窗口的大小约为(h/H,w/W),其中 H、W 为超参数,如设定为7 x 7
- 对每个子窗口进行 max-pooling 操作,得到固定输出大小的 feature map
- 之后进行后续的全连接层操作