论文笔记（一）---翻译 Rich feature hierarchies for accurate object detection and semantic segmentation

zoukankan html css js c++ java

论文笔记（一）---翻译 Rich feature hierarchies for accurate object detection and semantic segmentation

论文网址： https://arxiv.org/abs/1311.2524

　　RCNN利用深度学习进行目标检测。

摘要

　　可以将ImageNet上的进全图像分类而训练好的大型卷积神经网络用到PASCAL的目标检测中？答案是肯定的，并且结果是简单的，可扩展的，相对于可变部件模型（DPM）将平均精度提高了40％以上（在VOC 2007年达到最终的mAP为48％）。我们的网络框架结合强大的产生自下而上的候选区域的计算机视觉技术和在学习高容量卷积神经网络中的最新进展。我们称之为R-CNN：具有CNN特征的区域。同样的框架也与最先进的语义分割方法相竞争，并表现出其灵活性。除了这些结果，我们进行一系列实验，提供对网络通过学习去表示什么的深入理解，揭示一种丰富层次的辨别力和通常语义上有意义的特征。

1.介绍

　　图像特征是识别的重要部分。好的特征能立即推动计算机视觉技术的快速发展。可以说，最后一个特征革命是通过引入SIFT和HOG特征来建立的。几乎所有的现代目标检测和语义分割系统建立在这些低层次特征中的一个或两者之上，作为其有效性的证明。

　　然而，在这过去几年来，SIFT和HOG现在到了瓶颈时期并且制约了识别的性能这一说法已经形成。该说法是真实的，例如，在广泛的论文中，试图通过四个方面的工作来提高检测准确率：（1）丰富的结构模型;（2）多特征学习;（3）学习基于直方图的特征;（4）无监督特征学习。

　　PASCAL视觉目标分类挑战赛（VOC）作为评估目标检测器性能的主要基准。获得2010年和2011年比赛奖项的是通过组合多种类型的特征并广泛使用来自目标检测器和场景分类器的集合的场景。使用多个特征提高了至多10％（相对）的平均精度（mAP），伴随着每个附加特征的回报减少。在2012年的比赛中，系统表现不如上一年。这个停滞期表明目前的方法可能受到可用特征的限制。在这里，我们采取监督特征学习方法。图1概述了我们的方法，并突出了我们的一些结果。

　　

　　同时，致力于广泛的“深度学习”方法的研究者在提高全图分类效果方面取得了稳步进展。然而，直到最近，这些结果被隔离到诸如CIFAR和MNIST的数据集上，减慢了计算机视觉研究者在其他任务和图像领域上的使用。

　　接着，Krizhevsky等人通过在2012年的图像识别大赛（ILSVRC）上显示了更低的错误率，重新点燃了对卷积神经网络（CNN）的广泛兴趣。他们的结果的意义在2012年ECCV的ILSVRC研讨会期间被大力讨论。辩论的核心问题可以提炼为：CNN在ImageNet上的分类结果在多大程度上可泛化为PASCAL VOC比赛的目标检测结果？在本文中，我们通过使用一个大型卷积神经网络计算的特征来研究目标检测，以回答这个重要的科学问题。

　　CNN已经被用作滑动窗口检测器至少二十年，通常用在约束目标类别上，例如面部和行人。我们仍然考虑采用滑动窗方法。然而，包含大且密集连接（非卷积）层的CNN的高计算成本，像我们调查的那样，使得这个方法没有吸引力。此外，为了检测具有广泛变化的纵横比的物体，通常滑动一组检测器，具有的不同形状且调整到不同的目标对象的外观方式，从而进一步增加了计算成本。

　　相反，如同Gu等人的论证，我们在“使用区域的识别”范围内操作。在运行时，我们的方法对输入图像生成大约2000个类别独立的候选区域，使用我们的CNN从每个候选区域中提取出特征向量，然后对每个区域进行类别指定的线性SVM分类。

　　我们的系统效率惊人。通过使用候选区域，与滑动窗口方法相比，CNN处理的图像窗口减少了两个数量级。我们使用简单的方法来计算每个候选区域的固定长度的特征向量，而不管区域的形状如何，允许在所有类别和外观方式之间共享特征。此外，我们的特征比通常在类似管道中使用的维度低两个数量级。唯一的类特定计算是相当小的矩阵矩阵乘积和贪心非极大抑制。　　

　　按照这种方法，我们提出，在ImageNet上进行图像分类训练的CNN大幅度的优于PASCAL VOC挑战赛的现有检测方法。例如，在VOC 2007上，我们系统的消融版本实现了43％的mAP，而高度调整的可变形部件模型（DPM）为34％。我们完整的方法将mAP提高到48％。

　　更简单的HOG类特征的一个优点是更容易理解它们携带的信息（尽管[39]表明，高维HOG特征，我们的可能会不理解）。我们可以深入了解我们的CNN所学习的表示吗？也许密切相连层- 有着超过5400万个参数 - 是关键吗？不是。我们使“CNN”变得迟钝了，发现只有在检测准确度适当降低的情况下才能清除其参数惊人的大比例（94％）。也许颜色，HOG使用得很少，是关键吗？除去颜色只会稍微降低性能。相反，通过隔离网络中的特定单元（如图3所示），我们可以看到，CNN学习了一系列丰富的特征，从红点检测器到语义对齐的类似单元。了解我们方法的失败方法同样重要。因此，我们从Hoiem等人的分析工具报告检测结果。

　　在发展我们方法的技术细节之前，我们注意到它同样适用于语义分割问题。经过一些修改，我们还在PASCAL VOC分割任务上达到了最好水平，VOC 2011测试集的平均分割准确率为47.9％。

2.目标检测

　　我们的目标检测系统由三个模块组成。第一个生成类别独立候选区域。这些候选区域定义了我们的检测器可用的候选边界框集合。第二个模块是从各个区域提取固定长度特征向量的大型卷积神经网络。第三个模块是一组类别特定的线性SVM分类器。在本节中，我们将介绍每个模块的设计决策，描述其测试时间使用情况，详细了解其参数的学习方式，并展示在PASCAL VOC 2010-12上的结果。

2.1 模块设计

　　候选区域 各种最近的论文提供了生成类别独立的候选区域的方法。这些包括objectness，选择性搜索，类别独立候选目标，约束参数最小化（CPMC），以及基于超度量轮廓图合并超像素的方法。由于在PASCAL检测任务上的强大的性能，我们使用选择性搜索。

　　特征提取 我们使用我们自己实现的Krizhevsky等人的CNN，从每个候选区域中提取4096维特征向量，我们建立在开源cuda-convnet代码之上。特征是通过前向传播通过五个卷积层和两个全连接层减去平均的224X224 RGB图像来计算的。我们建议读者参考[26]了解更多的网络架构细节。第3节中的消融研究显示了最后三层每层特征的性能如何变化。

　　为了计算一个候选区域的特征，我们必须首先将该区域中的图像数据转换为与我们的CNN兼容的形式。网络结构需要输入固定的224X224像素尺寸大小。在我们任意形状区域的许多可能的变换中，我们选择最简单的。不管候选区域的大小或宽高比如何，我们将围绕其边界框中的所有像素到所需的尺寸大小。这导致每个区域的固定长度特征向量。图2显示了围绕训练区域的随机抽样。失真比人们可能想象的先验小。

2.2 结论

　　我们在一张测试图像上进行选择性搜索，以提取大约2000个候选区域（我们在所有实验中使用选择性搜索的“快速模式”）。我们把每一个候选区域都围成要求的形状大小，并通过CNN向前传播，以便从所需的层读取特征图。然后，对于每个类，我们使用针对该类训练的SVM来对每个提取的特征图进行评分。给定图像中的所有得分区域，我们应用贪心非极大抑制（对于每个类别，独立地）排除区域，如果它具有与交叉联合（IoU）重叠有着较高得分的非抑制区域大于学习阈值（所有实验中为0.3）。

　　运行时间分析 两个关键属性使结论非常高效。首先，所有类别共享所有CNN参数。第二，与其他常见方法相比，由CNN计算的特征向量是低维的，例如具有视觉词袋模型编码的空间金字塔。例如，UVA检测系统中使用的特征比我们（360k对4k维）大两个数量级。

　　这种共享的结果是计算候选区域和特征（在GPU上的13s /图像或在CPU上的53s /图像）的时间花费平摊到在所有类别上。唯一的指定类计算是特征与SVM权重和非最大抑制之间的点积。在实践中，一幅图像的所有点积都被分批成为单个矩阵矩阵乘积。特征矩阵通常为2000x4096，SVM权重矩阵为4096xN，其中N为类数。

　　虽然不是很明显，我们的方法应该容易地扩展到成千上万的对象类，而不使用近似的技术，如散列法。即使有100k类，在现代多核CPU上进行矩阵乘法只需10秒。此外，这种效率不仅仅是使用候选区域和共享特征的结果。由于其高维度特征，UVA系统的速度将会降低两个数量级，而需要134GB的内存才能存储100k线性预测器，相比之下，我们的低维特性只需1.5GB。

　　将我们的方法与Dean等人最近的工作使用DPM和散列的可扩展检测进行对比也是有趣的。他们在VOC 2007上报告了大概16％的mAP，每个图像的运行时间为5分钟，当引入10k干扰类时。通过我们的方法，10k个检测器可以在CPU上运行大约一分钟，并且由于没有近似值，mAP将保持在48％。

2.3 训练

　　CNN 预训练 我们使用具有图像水平的注释（即无边框标签）的大型辅助数据集（ILSVRC 2012）来“预训练”CNN。除了两个小的变化（简化实现）之外，我们紧密地遵循了[26]的方法。我们分享了在DeCAF技术报告中详细介绍的相同的实现和训练流程，并向读者介绍细节。简而言之，我们的CNN几乎符合[26]的表现，在ILSVRC 2012验证集上获得了排名第一的错误率仅高出2.2个百分点。这种差异可能是由于我们的简化。

　　CNN 微调 为了使CNN适应新的任务（检测）和新的领域（围绕的PASCAL窗口），我们只使用PASCAL的包围候选区域继续训练CNN参数。在预训练期间，我们将学习率以10的倍率降低三次。然而，最后的学习率并没有取得什么进展。为了进行微调，我们开始了随机梯度下降（SGD），学习率是初始预训练率的0.01倍。这允许微调进行，而不会使初始化崩溃。我们对待所有候选区域以≥ 0.5 IoU与真实标定框重叠，作为该标定框类的正样本，其余作为反样本。在每次SGD迭代中，我们采样两张训练图片并且通过从每个图像中的大约2000个中抽取64个候选区域来构建大小为128的小块。由于目标对象很少见，所以我们发现有必要对采样进行偏移平均每个小块的1/4是正样本。

　　目标类别分类器 考虑训练二分类器来检测汽车。很明显，紧紧围绕汽车的图像区域应该是一个正样本。同样地，很显然，与汽车无关的背景区域应该是一个负样本。较不清楚的是如何标注部分重叠汽车的区域。我们用IoU重叠阈值来解决这个问题，小于阈值的区域被定义为反样本。通过网格搜索{0,0.1,...,0.5}选择重叠阈值0.3。我们发现，仔细选择这一阈值至关重要。将其设置为0.5，如[36]所示，将使得mAP降低5点。同样，将其设置为0会将mAP降低4点。正样本被简单地定义为每个类的真实标定框。

　　一旦提取了特征并应用了训练标签，我们可以优化每个类的一个线性SVM。由于训练数据太大而不适合存储，所以我们采用了standard hard negtive mining method。我们发现该方法迅速收敛，实际上在所有图像中只有单个通道，mAP才会停止增长。训练是快速的，给定预先计算的特征向量，我们存储在磁盘上。所有20个PASCAL目标检测SVMs的训练时间（5k图像）在单个核上需要大约1.5小时。在 GPU上每个区域的特征计算需要大约5ms。

2.4 在PASCAL VOC 2010-12上的结果

　　根据PASCAL“最佳实践”指南，我们对VOC 2007数据集进行了所有设计决策。对于VOC 2010-12数据集的最终结果，我们对VOC 2012训练的CNN进行了微调（以避免在验证集上过拟合）。然后，我们在VOC 2012训练中训练了我们的检测SVM，并将测试结果提交给评估服务器一次。

　　表1显示了VOC 2010的完整结果。我们将我们的方法与三个强基准进行比较，但不包括使用背景重排的系统的结果。这样的回顾提高了所有的方法，并且与本文的重点是正交的（为了清楚起见，我们分离出个别的窗口，所以没有使用背景信息）。最相似的对比是UVA系统来自Uijlings等人[36]，因为我们的系统使用相同的候选区域算法。为了对区域进行分类，他们的方法构建了一个四级空间金字塔，并用密集采样的SIFT，扩展的对数SIFT和RGB-SIFT算子填充，每个矢量都用4000字的码本进行量化。使用直方图交点内核SVM进行分类。与他们的多特征相比，非线性内核SVM方法，我们实现了mAP的大幅度改进，从35.1％到43.5％的mAP，同时也快得多。我们的方法在VOC 2011/12测试中达到类似的性能，mAP为43.2％。

3. 可视化，消融和错误模式

　　CNN在实践中运作良好，但是它学到了什么，其设计的哪些方面对于其成功至关重要，以及它如何失败？

3.1 可视化学习特征

　　第一层滤波器可以直接可视化并且易于理解。它们捕获定向的边缘和对立的颜色。理解后续层次更具挑战性。Zeiler和Fergus在[40]中提出了一种有吸引力的去卷积方法。我们提出一个简单的（和补充的）非参数方法，直接显示网络学到的内容。

　　这个想法是在网络中列出一个特定的单位（人造“神经元”），并将其视为自己的目标检测器。也就是说，我们在大量的延伸候选区域（约1000万）中计算神经元的激活函数，将候选区域从最高到最低的响应进行排序，执行非极大抑制（在每个图像内），然后显示最高得分区域。我们的方法让所选单元“自己说话”，通过准确地显示它触发的输入。因为我们避免平均，我们有机会看到多种视觉模式，并深入了解单元计算的不变性。

　　我们可以从pool5层中可视化单元，这是网络的第五个maxpolled输出层和最终卷积层。pool5层的特征图是6x6x256 = 9216维。忽略边界效应，每个pool5单元在原始227x227像素输入中具有195x195像素的接受域。一个中央pool5单元具有几乎全局的视野，而靠近边缘的则有一个小得多的剪切支撑。我们选择了这个层，因为它是最后一个层次，它的单元具有紧凑的接收域，使得更容易显示图像的哪个部分负责激活。另外，我们对下一层fc6学习的表示获得了一些直观理解，因为它需要pool5激活的多个加权组合。

　　图3显示了我们在VOC 2007训练中进行了微调的来自CNN的六个单元的前16个激活。前两个单元被选中，因为它们对应于猫SVM中的大的正负权重（在pool5中训练）。第一种是选择猫脸，而第二种是选择其他动物面孔（主要是狗）。我们还可以看出羊和人的单元。最后两行表示更通用的单元; 一个在一定宽度的对角线上触发，另一个在红色斑点上触发。这些可视化表明了pool5特征的丰富性并暗示其中的多样性，单位范围从特定的动物面孔到更通用的形状和纹理。随后的全连接层具有对这些丰富特征的大量组合进行建模的能力。额外的可视化包括在附录，图6中。

3.2 消融研究

　　性能逐层，无需微调。为了了解哪些层对于检测性能至关重要，我们在VOC 2007数据集上分析了每个CNN最后三层的结果。第3.1节简要描述了池化层5。最后两层总结如下。

　　fc6层全连接到pool5层。为了计算特征，它通过pool5层特征图（重构为9216维向量）乘以4096x9216的权重矩阵和然后添加一个偏置向量。该中间矢量是分量半波整流（即x<- max(0,x)）。
　　fc7层是网络的最后一层。它通过将由fc6层计算的特征乘以4096x4096权重矩阵，并且同样添加偏置矢量并施加半波整流。

　　我们首先来看看CNN的结果，在PASCAL上没有进行微调，即所有的CNN参数都仅在ILSVRC 2012上进行了预处理。分析性能逐层图（表2第1-3行）显示，fc7层的特征与fc6层的特征相比具有很少或没有优势。这意味着可以删除CNN参数的29％或约1680万，而不会降低mAP。更令人惊讶的是，删除fc7和fc6都能产生相当好的结果，即使仅使用6％的CNN参数来计算pool5特征。CNN的大部分表示能力来自卷积层，而不是来自全连接层。这个发现表明在计算任意大小图像的HOG意义上的密集特征图的潜在实用性，通过仅使用CNN的卷积层。这种表示将能够在pool5层丰富的特征之上使用包括DPM的滑动窗口检测器。
　　颜色为了了解我们的系统从颜色中获益多少（与基于HOG的方法相比，这在很大程度上忽视它），我们在灰度级空间中测试了我们的预训练的CNN。从灰度版本的PASCAL图像上对fc6层特征进行SVMs的训练，并对灰度图像进行测试，将VOC 2007测试中的mAP从43.4％降低到40.1％。

　　性能逐层，微调 现在，我们在对VOC 2007训练的参数进行了微调后，再来看看CNN的结果。改进效果是显着的。微调使mAP提高4.6点至48.0％。对于fc6和fc7，微调的提升比pool5大得多。这可能表明，从ImageNet中学习的丰富的pool5特征对于PASCAL来说已经足够了，大多数改进是通过学习如何在fc6中进行最优组合而获得的。

　　与近期特征学习方法的比较 在PASCAL检测中已经尝试了相对较少的特征学习方法。我们来看两种最新的基于可变形零件模型（DPM）的方法。作为参考，我们还包括标准的基于HOG的DPM的结果。

　　第一个DPM特征学习方法，DPM ST，增加了具有“素描令牌”概率直方图的HOG特征。直观上，素描令牌是通过图像块中心的轮廓的紧密分布。素描令牌概率是通过一个随机森林在每个像素点上进行计算的，被训练为将35x35像素块分类成150个素描标记或背景之一。

　　第二种方法，DPM HSC，使用稀疏编码的直方图代替HOG。为了计算HSC，使用100个7x7像素的（灰度）原子学习词典在每个像素处求解稀疏编码激活。所得到的激活以三种方式（全部和两个半波）进行调整，空间池化，单元l2归一化，然后进行功率变换（x<- sign（x）|x|^a）。

　　我们所有的CNN方法都超过三个DPM基线，包括使用特征学习的两个。与最新版本相比DPM仅使用HOG功能，我们的mAP超过14点：48.0％vs 33.7％ - 相对提高42％。 HOG和素描令牌的组合在单独的HOG下获得2.5个mAP点，而HSC在HOG上提高了4点的MAP（与其内部的单独的DPM基线相比，两者均使用非公开DPM的实现不如开源版本）。这些方法分别达到29.1％和34.3％的mAPs。

3.3 检测误差分析

　　我们应用了Hoiem等人的优秀检测分析工具，为了揭示我们的方法的错误方式，了解微调如何改变他们，并且看看我们的错误类型与DPM的比较。分析工具的完整总结超出了本文的范围，我们鼓励读者参考[23]了解一些更精细的细节（如“归一化AP”）。由于分析最好在相关图谱的背景下被吸收，所以我们在图4和图5的标题中提出讨论。

4. 语义分割

　　区域分类是语义分割的标准技术，使我们能够轻松地将我们的CNN应用于PASCAL VOC分割赛事。为了促进与当前领先的语义分割系统（称为O₂P为“二阶池化”）进行直接比较，我们在他们的开源框架内工作。O₂P使用CPMC为每个图像生成150个候选区域，使用支持向量回归（SVR）预测每个区域的每个类别的质量。他们的方法的高性能是由于CPMC区域的质量和多种功能类型（SIFT和LBP的丰富变体）的强大的二阶池化。我们还注意到，Farabet等最近在使用CNN作为每个像素的分类器的几个密集场景标记数据集（不包括PASCAL）上展示了良好的结果。

　　我们遵循[2,5]并扩展PASCAL分割训练集，以包括Hariharan等提供的额外注释。设计决策和超参数在VOC 2011验证集上被交叉验证。最终测试结果仅评估一次。

　　CNN特征进行细分 我们评估了CPMC区域计算特征的三种策略，所有这些策略都是通过将该区域的矩形窗口包围在到224x224来开始的。第一个策略（full）忽略了该区域的形状，并直接在包围的窗口上计算CNN特征，就像我们检测到的那样。然而，这些特征忽略该区域的非矩形形状。两个区域可能具有非常相似的边界框，同时具有非常小的重叠。因此，第二种策略（fg）仅在区域的前景模版上计算CNN特征。我们用平均输入替换背景，使平均值减去后的背景区域为零。第三个策略（full + fg）简单地连接full和fg特征; 我们的实验验证了它们的补充。

　　VOC 2011的结果 表3显示了与O₂P相比，VOC 2011验证集的结果总结（参见附录中的表5，以获得完整的每个类别的结果）。在每个特征计算策略中，fc6层始终优于fc7层，下面的讨论参考fc6层特征。fg策略比full略胜一筹，表明模板区域的形状提供更强的信号，匹配直觉。然而，full + fg的平均精度达到47.9％，我们的最佳结果为4.2％（略逊于O₂P），表明即使给出了fg特征，由full特征提供的背景提供了高度的信息。值得注意的是，在我们的full+ fg特征上训练20个SVR需要大约一个小时在单个核上，而在O₂P特征上训练需10个小时。

　　在表4中，我们展示了VOC 2011测试集的结果，将我们的最佳表现方法fc6（full + fg）与两个强基准进行了比较。我们的方法在21个类别中的11个中实现了最高的分割准确度，并且最大的总分割准确率为47.9％，在各个类别之间平均（但可能与任何合理的误差范围内的O2P结果有关）。更好的表现可以通过微调实现。

5. 讨论

　　利用大型辅助数据集是我们方法成功的关键。为什么不给更多的训练数据到其他方法？一个问题是从不同领域的数据中受益，这是不寻常的，并且被标记为不同的任务。例如，训练PASCAL的DPM需要PASCAL类别的边界框注释。此外，[42]表明即使有更多数据可用，DPM也不容易从中受益。第二个问题是许多方法缺乏大量的共享参数来预训练。例如，一个词袋模型的方法不太可能受益于在ImageNet上训练其码本。这些问题在将来可能会被克服，但它们是自己的研究工作。

　　本文证明了一个强大的实验说明：大型卷积神经网络在利用“大视觉数据”来学习丰富的特征层次是非常有效的，这将在黄金标准PASCAL VOC挑战赛中产生以前无法实现的目标检测结果。这不是一个小小的壮举。从检测器的优势来看，ILSVRC 2012的标签很弱，甚至缺少关键视觉概念（如人物）的注释。CNN有能力轻松将这些数据转化为最佳性能的检测结果是真正令人兴奋的。我们通过使用计算机视觉和深度学习的经典工具（自下而上的候选区域和卷积神经网络）的组合来实现这些结果是重要的。这两者不是对立的，而是自然而且不可避免的伙伴。

A. 附加特征可视化

　　图6显示了六个pool5层单元的附加可视化。对于每个单元，我们展示了96个候选区域，最大限度地激发了该单元在全部约1000万个区域的所有VOC 2007测试集中。

　　我们在6x6x256维Pool5特征图中（y，x，channel）位置来标记每个单元。在每一个通道，CNN计算与输入区域完全相同的函数，（y，x）位置仅改变接收场。从左上角到右下角，我们看到有选择性的单元：绿色植物，猫脸，人脸，波纹，文字和条纹在各种方向。

B. 每个类别分割结果

　　在表5中，除了O₂P方法之外，我们还显示了我们的六种分割方法中在VOC 2011上的每类分类准确度。这些结果显示了20个单独的PASCAL类以及背景类中的哪一种方法是最强的。

C. 交叉数据集冗余分析

　　在辅助数据集上进行训练时的一个问题是它与测试集之间可能存在冗余。即使目标检测和全图像分类的任务大不相同，使得这样的交叉集冗余更加令人担忧，我们仍然进行了一个彻底的调查，量化了在ILSVRC 2012训练和验证集中PASCAL测试图像的包含程度。我们的研究结果对于有兴趣使用ILSVRC 2012作为对PASCAL图像分类任务的训练数据的研究者可能有用。　

　　我们对重复（和非重复）图像进行了两次检查。第一次测试是基于flickr图像IDs的准确匹配，这是包含在VOC 2007的测试注释总（这些ID被有意保留作为后续的PASCAL测试集）。所有的PASCAL图像，以及约一半的ILSVRC，都是从flickr.com收集的。该检查在4952个匹配中出现了31（0.63％）。

　　第二个检查使用GIST算子匹配，如[13]所示，在大型（> 100万）图像集合中的近似重复图像检测中具有出色的性能。按照[13]，我们计算了GIST算子，在所有ILSVRC 2012训练和PASCAL 2007测试图像的围绕32x32像素版本。欧几里德GIST算子的最近邻匹配揭示了38个近似重复的图像（包括由flickr ID匹配发现的所有31个）。这些比赛在JPEG压缩级别和分辨率方面略有不同，而且裁剪程度也较小。这些研究结果表明，重叠非常小，小于1％。对于VOC 2012，因为flickr ID不可用，所以我们仅使用GIST匹配方法。根据GIST匹配，VOC 2012测试图像中有1.5％在ILSVRC 2012训练。VOC 2012略高可能是由于收集了两个数据集时间比VOC 2007和ILSVRC 2012更紧密。

查看全文

相关阅读:
生产环境Redis中的热点key如何发现并优化？
一条update SQL在MySQL中结束生命历程
 主从测试过程中，如何模拟网络抖动？
RDS-MySQL物理备份文件恢复到自建数据库
 Python从数据库中读取数据，并打印表格展示数据。
Python简单巡检MySQL
RDS-MySQL备份文件恢复到自建数据库
 使用Python读取Excel表格
 设计模式六大原则：迪米特法则
 设计模式六大原则：开闭原则

原文地址：https://www.cnblogs.com/xiaotongtt/p/6691103.html

论文笔记（一）---翻译 Rich feature hierarchies for accurate object detection and semantic segmentation

摘要

1.介绍

2.目标检测

2.1 模块设计

2.2 结论

2.3 训练

2.4 在PASCAL VOC 2010-12上的结果

3. 可视化，消融和错误模式

3.1 可视化学习特征

3.2 消融研究

3.3 检测误差分析

4. 语义分割

5. 讨论