Image Processing and Computer Vision_Review：Recent Advances in Features Extraction and Description Algorithms: A Comprehensive Survey——2017.03

zoukankan html css js c++ java

Image Processing and Computer Vision_Review：Recent Advances in Features Extraction and Description Algorithms: A Comprehensive Survey——2017.03

翻译

特征提取和描述算法的最新进展：全面的调查

摘要 - 计算机视觉是当今信息技术中最活跃的研究领域之一。让机器和机器人能够以视线的速度看到和理解周围的世界，创造出无穷无尽的潜在应用和机会。特征检测和描述算法确实可以被认为是这种机器和机器人眼睛的视网膜。然而，这些算法通常是计算密集型的，这使得它们无法实现视觉实时性能的速度。此外，它们的能力不同，有些人可能会因为特定类型的输入而与其他人相比更有利于工作。因此，必须紧凑地报告其利弊，以及他们的表现和最近的进展。本文致力于全面概述特征检测和描述算法的最新进展和最新进展。具体而言，它首先概述了基本概念。然后，它会比较，报告和讨论它们的性能和功能。选择最大稳定极值区域算法和尺度不变特征变换算法，它们是两种类型中最好的算法，以报告它们最近的算法导数。

索引术语 - 计算机视觉，图像处理，机器人，特征检测，特征描述，MSER，SIFT

Ⅰ.导言
静态和动态场景的特征检测和描述是研究的活跃领域，也是计算机视觉文献中研究最多的主题之一。特征检测和描述的概念是指识别图像中的点（兴趣点）的过程，该点可用于描述图像的内容，例如边缘，角落，脊和斑点。它主要针对从视频流中进行对象检测，分析和跟踪，以描述其动作和行为的语义[1]。它还有很多潜在的应用，包括但不限于敏感建筑的访问控制，人群和人口统计分析，人体检测和跟踪，可疑行为检测，交通分析，车辆跟踪和检测军事目标。
在过去几年中，我们目睹了均匀和不均匀视觉输入量的显着增加（主要是由于智能手机中内置摄像头等廉价捕获设备的可用性，以及免费图像的可用性托管应用程序，网站和服务器，如Instagram和Facebook）。这促使研究团体提出了许多新颖，强大且自动化的特征检测和描述算法，这些算法可以在准确性和性能方面适应应用程序的需求。

大多数提出的算法需要密集计算（特别是当它与高清晰度视频流或高分辨率卫星图像应用一起使用时）。需要具有这些算法的大量处理能力的硬件加速器来加速其对实时应用的计算。数字信号处理器（DSPs），现场可编程门阵列（FPGAs），片上系统（SoCs），应用专用集成电路（ASICs）和图形处理单元（GPUs）平台，具有更智能，可并行化和可管理的硬件处理设计可以成为缓解这个问题的目标。
将特征检测和描述算法移植到硬件平台中可以加速其计算量级。然而，诸如存储器，功率，可扩展性和格式接口之类的硬件约束构成了将其扩展为高分辨率的主要瓶颈。这些与硬件相关的问题的典型解决方案是缩小分辨率或牺牲检测到的特征的准确性。另一方面，机器和机器人视觉领域的最新技术最近得出结论，处理算法将为解决这些问题做出实质性贡献[2] [3]。也就是说，计算机视觉算法的目标可能是解决与内存和功耗要求相关的硬件要求相关的大多数问题，并可能为这类系统带来巨大的变革[4]。这一挑战正在邀请研究人员发明，实施和测试这些新算法，这些新算法主要属于特征检测和描述类别，并且是许多视觉计算应用的基本工具。

为了确保视觉算法的稳健性，一个必要的先决条件是它们被设计为涵盖各种可能的场景，具有高度的可重复性和无差异性。最终，研究所有这些场景和参数几乎是不可能的，但是，对所有这些变量的清晰理解对于成功的设计至关重要。影响实时性能的关键因素包括处理平台（及其相关的存储器限制，FPGAs，SoCs，GPUs等中的功率和频率，可能导致可能影响所需性能的算法修改），受监控环境（例如，照明，反射，阴影，视图方向，角度等），以及感兴趣的应用（例如，感兴趣的目标，可容忍的未命中检测/误报率和期望的权衡以及允许的等待时间）。因此，仔细研究计算机视觉算法至关重要。
本文致力于全面概述特征检测和描述算法的最新进展和最新进展。具体而言，本文首先概述构成特征检测和描述算法核心的基本概念。然后，它会比较，报告和讨论它们的性能和功能。选择最大稳定极值区域（MSER）算法和尺度不变特征变换（SIFT）算法作为其最佳类型中的两个，以报告其最近的算法导数。

本文的其余部分安排如下。第二部分概述了文献中提出的最新的特征检测和描述算法。它还总结并比较了各种变换下的性能和准确性。在第III节中，MSER和SIFT算法根据其最近的衍生物进行了详细研究。最后，第四节总结了本文，展望了未来的工作。

Ⅱ.定义和原则
本节描述了从具有彩色或灰度图像的原始图像到描述符生成阶段检测和描述图像中的一组特征的过程。它总结了用于衡量生成的特征描述符质量的指标。
A.本地功能
局部图像特征（也称为兴趣点，关键点和显着特征）可以被定义为特定模式，其特征在于其紧邻的像素，其通常与一个或多个图像属性相关联[5] [6]。这些属性包括边缘，角落，区域等。下面的图1（a）表示这种局部特征的总结。实际上，这些局部特征代表了在搜索图像（或视频）时可以总结帧的内容（借助于特征描述符）的基本锚点。然后将这些局部特征转换为数字描述符，表示这些局部特征的唯一和紧凑的概括。

本地（描述性和不变性）功能提供了一个功能强大的工具，可用于各种计算机视觉和机器人应用，如实时视觉监控，图像检索，视频挖掘，对象跟踪，镶嵌，目标检测和广泛基线匹配名称很少[7]。要说明此类本地功能的有用性，请考虑以下示例。给定航拍图像，检测到的边缘可以代表街道，角落可以是街道交叉点，同质区域可以代表汽车，环形交叉路口或建筑物（当然，这取决于分辨率）。
术语检测器（也称为提取器）传统上是指检测（或提取）这些局部特征并准备将它们传递到描述其内容的另一处理阶段的算法或技术，即特征描述符算法。也就是说，特征提取在不同的计算机视觉算法之间起到中间图像处理阶段的作用。在这项工作中，术语检测器和提取器可互换使用。

图1：说明性图像局部特征（a）输入图像，（b）角，（c）边缘和（d）区域

B.理想的局部特征
通常，局部特征通常具有空间范围，这是由于其局部像素邻域。也就是说，它们代表语义上有意义的帧的子集，例如，对应于一个对象（或一个对象的一部分）。最终，将所有这些特征本地化是不可行的，因为这需要高级框架（场景）理解的先决条件[5]。因此，那些特征检测算法试图基于输入帧中的强度模式直接定位这些特征。选择这些局部特征确实会极大地影响整体系统性能[6]。
理想特征（以及特征探测器）通常应具有以下重要特性[5]：
（1）独特性：检测到的特征所基于的强度模式应该具有丰富的变化，可用于区分特征和匹配它们。
（2）局部性：特征应该是局部的，以便减少被遮挡的可能性，并且允许简单地估计具有不同视图的两个帧之间的几何和光度变形。
（3）数量：检测到的特征总数（即特征密度）应足够（不过分）大，以便以紧凑的形式反映帧内容。
（4）准确度：检测到的特征应相对于框架中不同的比例，形状和像素位置准确定位。
（5）效率：应在短时间内有效地识别特征，使其适用于实时（即时间临界）应用。
（6）可重复性：给定具有不同观察设置的相同对象（或场景）的两个帧，应在两个帧中找到来自重叠可见部分的高百分比的检测到的特征。以下两个品质极大地影响了重复性。
（7）不变性：在预期大变形（比例，旋转等）的情况下，探测器算法应尽可能精确地数学模拟该变形，以便最小化其对提取的特征的影响。

（8）稳健性：在预期小变形（噪声，模糊，离散效应，压缩伪像等）的情况下，通常足以使检测算法对这种变形不太敏感（即精度没有急剧下降）。

表I：现有技术特征检测器的概要[6]

　　类别　　　　　　　　　　　　　　　　分类　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　方法和算法

　　　　　　　　　　　　（基于差异、梯度、模板、轮廓、学习、PDE、模板、分割）

直观地说，给定的计算机视觉应用可能比另一种更有利于一种质量[5]。可重复性，可以说是最重要的质量，直接取决于其他品质（即，改进一个品质同样会提高可重复性）。然而，关于其他品质，通常需要做出妥协。例如，独特性和局部性是竞争属性（特征越局部，特征越不明显，使特征匹配更加困难）。效率和数量是这种竞争品质的另一个例子。高密度特征可能会改善对象/场景识别任务，但是这会对计算时间产生负面影响。

C.特征探测器
技术文献中包含新功能检测和描述算法，以及比较其性能和质量的调查，例如前面部分中提到的那些。读者可以参考[5] [8] [9] [10] [11] [12] [13] [14] [15]中文献中的一些优雅调查。但是，直到今天仍然没有理想的探测器。这主要是由于几乎无数的可能的计算机视觉应用（可能需要一个或多个特征），成像条件的差异（尺度，视点，光照和对比度，图像质量，压缩等的变化）和可能场景。当考虑用于实时应用时，这种检测器的计算效率变得更加重要[6] [8] [9]。
因此，最重要的局部特征包括：（1）边缘：指强度突然改变的像素图案（具有强烈的梯度幅度），（2）角落：指两个（或更多）边缘的点在当地社区交叉，和（3）区域：指具有相似同质性标准的封闭连接点集，通常是强度值。

可以直观地注意到这些局部特征之间存在强烈的相关性。例如，多个边缘有时围绕区域，即跟踪边缘限定区域边界。类似地，边缘的交叉定义了角[8]。表1中列出了众所周知的特征探测器的概要。表2中比较了许多最先进探测器的性能。
正如在计算机视觉文献[5] [10] [13]中的许多性能比较调查中所报道的那样，MSER [16]和SIFT算法[17]在不变性和其他特征质量方面都表现出了优异的性能。（见表2，最后两行）。由于这些事实，MSER和SIFT算法被扩展到具有不同增强的若干衍生物（将在后面的部分中报告）。因此，本文的以下部分考虑报告MSER和SIFT算法的算法派生。

Ⅲ. MSER和SIFT：算法导数
本节讨论一些众所周知的MSER和SIFT算法衍生物。提出这些算法以在计算复杂性，准确性和执行时间方面增强MSER和SIFT算法性能。
A. MSER衍生物
Matas等人在2002年提出了最稳定的极值区域（MSER）算法。从那以后，基于MSER技术提出了区域检测算法的数量。以下是按时间顺序列出的五种MSER衍生物的列表。
（1）N维扩展：通过将邻域搜索和稳定性标准扩展到3D图像数据而不是2D强度日期，该算法在2006年首次扩展用于3D分割[18]。后来，在2007年，Vedaldi在[19]中提出了N维数据空间的另一个扩展，并且在同一年后，还提供了可以利用三色通道的向量值函数的扩展。在[20]。

（2）线性时间MSER算法：2008年，Nister和Stewenius在[21]中提出了一种模拟真实流量的新处理流程。新的线性时间MSER算法与标准算法相比具有几个优点，例如更好的高速缓存局部性，线性复杂性等。[22]中提出了初始硬件设计。

表II：主要特征检测算法的性能总结[5]

　　特征检测器　　　　　　　　　　不变性（旋转、尺度、仿射）　　　　　　质量（可重复性、局部性、稳健性、效率）

（3）扩展MSER（X-MSER）算法：标准MSER算法仅从输入强度帧搜索极值区域。然而，在2015年，[23]的作者提出了深度（空间）域的扩展，注意到深度图像和强度图像之间的相关性，并引入了扩展的MSER检测器，其在[24]中获得专利。
（4）并行MSER算法：MSER算法的一个主要缺点是需要在每帧上运行两次以检测暗和亮极值区域。为了规避这些问题，作者提出了并行MSER算法[25]。在此上下文中的平行是指在单次运行中检测两个极值区域的能力。这种算法增强显示出优于标准MSER算法的巨大优势，例如显着减少执行时间，所需的硬件资源和功率等。这种并行MSER算法几乎没有与之相关的美国专利（例如[26]）。
（5）其他MSER衍生物：受MSER算法启发的其他算法包括极值水平的极值区域[27] [28]算法和基于树的莫尔斯区域（TBMR）[29]。

B. SIFT Derievatives
SIFT算法具有局部特征检测器和基于局部直方图的描述符。它检测图像中的感兴趣点集合，并且对于每个点，它计算具有128个值的基于直方图的描述符。由于Lowe在2004年提出了SIFT算法，因此算法的数量试图减少SIFT描述符宽度以减少描述符计算和匹配时间。其他算法在每个集中点周围使用不同的窗口大小和直方图计算模式，以加速计算过程或增加针对不同变换的描述性鲁棒性。可以注意到，与MSER算法相比，SIFT富含衍生物。原因是对于MSER简单处理流程没有太多要做，不像SIFT更复杂。下面讨论SIFT算法衍生物的简要概述。

（1）ASIFT：Yu和Morel在[30]中提出了一个自由版本的SIFT算法，称为ASIFT。该导数模拟通过改变纬度和经度角可获得的所有图像视图。然后它使用标准SIFT方法本身。事实证明，ASIFT的性能优于SIFT，完全不变[30]。然而，主要缺点是计算负荷的急剧增加。 ASIFT的代码可以在[31]中找到。
（2）CSIFT：SIFT算法对彩色空间的另一种变化是CSIFT [32]。它基本上修改了SIFT描述符（在颜色不变空间中），并且发现在模糊变化和自然变化时更稳健，并且与标准SIFT相比，在光照变化下更不稳健。
（3）n-SIFT：n-SIFT算法简单地将标准SIFT算法直接扩展到具有多维的图像（或数据）[33]。该算法通过对梯度和多维直方图使用超球面坐标来创建特征向量。与传统的SIFT算法相比，n-SIFT提取的特征可以在3D和4D图像中高效匹配。
（4）PCA-SIFT：PCA-SIFT [34]采用主成分分析（PCA）导出的替代特征向量，它基于归一化梯度补丁而不是标准SIFT中使用的加权和平滑HoG。更重要的是，它使用41x41像素的窗口大小来生成长度为39x39x2 = 3042的描述符，但是它通过使用PCA将描述符的维度从3042减少到2036矢量，这在存储器受限设备中可能更优选。

（5）SIFT-SIFER Retrofit：SIFT和SIFT与错误恢复（SIFER）[35]算法之间的主要区别在于SIFER（以计算负荷为代价提高了精度）具有更好的规模空间管理更高粒度的图像金字塔表示和使用余弦调制高斯（CMG）滤波器的更好的缩放调整滤波。对于某些标准，该算法将该特征的准确性和鲁棒性提高了20％。然而，准确性的代价是增加执行时间比SIFT算法慢约两倍。
（6）其他衍生产品：其他SIFT衍生产品包括SURF [36]，SIFT CS-LBP Retrofit，RootSIFT Retrofit和CenSurE和STAR算法，在[7]中进行了总结。

Ⅳ结论

本文的目的是为新的计算机视觉研究人员提供关于图像特征检测和描述的基本原理的简要介绍。它还概述了文献中提出的最新技术。首先回顾一下与这些算法相关的基本概念。它还根据不同的指标对其性能和功能进行了简要比较。已经在现实生活应用中存在的图像变换的提取特征的质量方面比较了算法，例如图像旋转，缩放和自然。比较中使用的指标包括：可重复性，本地化，稳健性和效率。从这类算法中，选择了两种最常用的算法用于细节探索，MSER和SIFT算法及其算法导数。讨论强调了衍生物主要的新方面，使它们与原始形式区别开来。

查看全文

相关阅读:
Spring Cloud的小改进（五）
国内最火的10款Java开源项目，都是国人开发，CMS居多
 创建服务的注册与发现 Eureka （四）
Eureka的的概述（三）
sourcetree 跳过首次登录
 基于IDEA工具 lombok 的使用
 面试总结
 Spring Cloud的概述（二）
微服务的概述（一）
原子性 CAS算法

原文地址：https://www.cnblogs.com/Alliswell-WP/p/TranslationOfPapers_Review001.html