zoukankan      html  css  js  c++  java
  • RCNN论文阅读笔记

    一摘要:

    两个主要工作:1将cnn和自上而下的区域提案结合进行定位和对象分割;2当训练数据稀缺时,先预训练然后微调。

    rccn工作分为四步:1输入一张图片

             2用selective search算法对每张图片产生2000张自下而上的候选目标区域

             3用cnn对每一个候选区域提取深度特征(因为候选区域大小形状不一致,而cnn输入大小要固定227*227,因此本文用affine image wrapping先把候选区域统一为227*227)

                                    4用svm对每个区域进行分类

    二使用rcnn进行对象检测:

    对象检测主要有三个模块:1产生与类别无关的候选区域

                                                2用卷积神经网络产生固定长度的特征向量

                                                3使用线性svm进行分类

    三Visualization, ablation, and modes of error

    1可视化

    其中第一层卷积提取的是图片的边缘和颜色特征,后面的特征难以理解。

    文章中将池化层5进行了可视化,pool5的特征图为6*6*256=9216维,忽略边界效应,其感受野为195*195,一个中央pool5几乎具有全局感受野。、

    256个特征中有6个是可视化的,如图,网络将特征与形状纹理颜色材质等结合在一起,最后的全连接fc6具有模拟大量丰富特征组合的能力

    2.Ablation studies

     逐层分析每层的作用,发现全连接层参数巨大而对于目标识别和分类影响比较小,删除fc6和fc7,网络依旧有较好的结果,虽然pool5的的特征值仅仅占6%,所以说cnn的识别能力主要来自卷积层。fine-tuning改善了准确率,微调的改进作用主要作用与fc6和fc7,说明pool5的学习具有一般性,大部分的改进是通过学习特定领域的非线性分类器得到的。

    3.检测错位分析

    没看太懂

    4边框回归

    使用线性回归模型来预测定位窗口

    四语意分割

    区域分类是语意分割的标准技术

    分割的cnn特征有三种策略:1忽略区域形状,全部变形为227*227,计算cnn特征(full)

                  2仅在区域前景计算cnn特征,用均值输入替换背景,使平均相减后背景区域为(fg)

                                                 3full+fg

    五总结

    论文作者认为:自上而下的候选区域提案和卷积神经网络结合是自然而然的,能提高效率的。

    ///////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

    学习感悟:

         RCNN的训练方式很值得学习:目标检测的标注数据是比较少的,但是图片分类有着大量的标记数据,RCNN首先利用ILSVRC2012图片分类数据库进行预训练甚至可以直接使用AlexNet的参数,得到一个1000维的输出,然后用PASCAL VOC2007数据可进行训练,因为此数据只有20个类别,因此将网络最后的全连接层由1000换成21,20个种类加一个背景类,然后再使用PASCAL VOC2007对数据进行微调。这也印证了论文中说的,卷积层的特征参数具有一般性,用数据多的图片分类数据进行预训练,用数据少的识别数据进行微调,微调主要作用于后面的全连接层。

    目标和背景通过候选框和标定框的IOU[(A∩B)/(A∪B)]来选取,重叠度大于0.5是,标记为目标,重叠度小于0.5时为北京,每个batch为32个正样本+96个背景。

    RCNN优势:

          1相较于传统的识别方法如:sift、hog的优势在于,利用深度学习方法提取图片的深度特征,而不再利用人为设计的特征

                       2采用区域建议的方式,首先提取可能的目标,不再利用滑动窗口的方式,省去大量计算

                       3加入了边界框回归策略来进一步提升检测精度。 

  • 相关阅读:
    如何使用php实现首页和子页面之间的交互
    用php实现,打开哪个页面哪个页面就有默认的样式
    后台链接前台有关显示不显示
    上传文件的最大值,post传值的最大值得修改
    linux 操作系统的安装,本地登录及远程登录,vnc连接操作详细步骤
    滑动组件
    Numpy简介
    java对象序列化
    集合类操作需要注意的地方
    TreeMap详解
  • 原文地址:https://www.cnblogs.com/smartwhite/p/8763463.html
Copyright © 2011-2022 走看看