zoukankan      html  css  js  c++  java
  • R-CNN

    R-CNN

    目标检测+深度学习开山之作

    CVPR'14

    paper:Rich feature hierarchies for accurate object detection and semantic segmentation

    亮点

    • 使用selection search(region proposal)生成候选框
    • 使用AlexNet提取特征
    • 使用SVM对CNN提取的特征进行分类
    • 使用Bounding box回归出更加精确的框

    网络结构

    整个流程

    • 输入一张图片(任意大小)
    • 在图像上应用selection search方法得到2000个候选框
    • 对候选框进行裁剪、缩放得到227*227大小的图像块
    • 使用预训练好的AlexNet作为特征提取器
    • 使用训练好的SVM作为分类器
    • 使用NMS除去重复的框
    • 使用训练好的bounding box 回归修正候选框

    Selection Search

    划分为小块,对相邻的块计算图像相似度,合并相似的块,重复这个过程,最后得到候选框。

    指标包括颜色、纹理、区域大小和区域的合适度

    图像处理

    填充后再裁剪

    裁剪后再填充

    直接缩放到目标尺寸

    论文对比发现直接缩放到目标尺寸+在图像周围填充16个像素(基于上下文)效果比较好。(也可以根据原始图像的像素决定填充的像素数)

    特征提取

    使用fine-tune,保留AlexNet前五层。AlexNet在大型的数据集上训练。

    fune-tune

    分类器

    使用SVM*预测种类数量个分类器。

    NMS

    非极大抑制

    按照得分排序,除去和最大得分框IOU大于阈值的框,不断筛选。

    预测框修正

    附录C

    输入((G, P))(G)是GT bounding box,(P)是predict bounding box。

    (P)除去了那些和任何GT都不沾边的框,这些框拿来训练没意义。

    (t^i_*)是由(G)(P)计算得到的,包括中心点偏移量和长宽的缩放比例。

    hard negative mining

    hard negative mining

    主要由样本量引起。

    方法:把难以训练的样本放入训练集中进行训练。

    在文中特征提取部分和分类器部分使用有点区别,fine-tunning阶段是由于CNN对小样本容易过拟合,需要大量训练数据,故对IoU限制宽松: IoU>0.5的建议框为正样本,否则为负样本; SVM这种机制是由于其适用于小样本训练,故对样本IoU限制严格:Ground Truth为正样本,与Ground Truth相交IoU<0.3的建议框为负样本。

    缺点

    select search只能在CPU上处理,速度慢

    每次输入2000+个候选框,有大量的重复计算,速度很慢

    特征提取、分类、边框回归是三个部分分别训练

    需要额外的存储空间

  • 相关阅读:
    curl命令详解
    Linux 下 set env export declare浅浅 set和shopt命令详解--(shell定制) (转载)
    ps aux指令詳解
    smb设置参考手册 --详细参数
    Ajax
    JSON浅谈
    Date类型
    笔记本电脑不能上网的问题
    editplus 初步设置
    w10 系统升级
  • 原文地址:https://www.cnblogs.com/xiaowk/p/15153145.html
Copyright © 2011-2022 走看看