Computer Vision_33_SIFT：LIFT: Learned Invariant Feature Transform——2016

zoukankan html css js c++ java

Computer Vision_33_SIFT：LIFT: Learned Invariant Feature Transform——2016

此部分是计算机视觉部分，主要侧重在底层特征提取，视频分析，跟踪，目标检测和识别方面等方面。对于自己不太熟悉的领域比如摄像机标定和立体视觉，仅仅列出上google上引用次数比较多的文献。有一些刚刚出版的文章，个人非常喜欢，也列出来了。

33. SIFT
关于SIFT，实在不需要介绍太多，一万多次的引用已经说明问题了。SURF和PCA-SIFT也是属于这个系列。后面列出了几篇跟SIFT有关的问题。
[1999 ICCV] Object recognition from local scale-invariant features
[2000 IJCV] Evaluation of Interest Point Detectors
[2006 CVIU] Speeded-Up Robust Features (SURF)
[2004 CVPR] PCA-SIFT A More Distinctive Representation for Local Image Descriptors
[2004 IJCV] Distinctive Image Features from Scale-Invariant Keypoints

[2009 GRSL] Robust scale-invariant feature matching for remote sensing image registration
[2010 IJCV] Improving Bag-of-Features for Large Scale Image Search
[2011 PAMI] SIFTflow Dense Correspondence across Scenes and its Applications

[2012 ECCV] KAZE Features

[2012 ICCV] ORB_An efficient alternative to SIFT or SURF

[2014 CVPR] TILDE: A Temporally Invariant Learned DEtector

[2014 TGRS] A novel coarse-to-fine scheme for automatic image registration based on SIFT and mutual information

[2015 GRSL] An efficient SIFT-based mode-seeking algorithm for sub-pixel registration of remotely sensed images

[2015 TGRS] SAR-SIFT: A SIFT-LIKE ALGORITHM FOR SAR IMAGES

[2016 ECCV] LIFT Learned Invariant Feature Transform

[2016 JVCIR] An Improved RANSAC based on the Scale Variation Homogeneity

[2017 GRSL] Remote Sensing Image Registration With Modified SIFT and Enhanced Feature Matching

[2017 CVPR] GMS :Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence

翻译

LIFT：学习的不变特征变换

作者：Kwang Moo Yi∗,1, Eduard Trulls∗,1, Vincent Lepetit2, Pascal Fua1

摘要 -我们介绍了一种新颖的深度网络体系结构，该体系结构实现了完整的特征点处理管道，即检测，方向估计和特征描述。尽管先前的工作已经成功地单独解决了每个问题，但我们展示了如何在保持端到端的差异性的同时学习如何以统一的方式完成这三个问题。然后，我们证明了Deep管道在许多基准数据集上的性能优于最新方法，而无需重新训练。

关键字：局部特征，特征描述符，深度学习

1 引言

本地功能在许多计算机视觉应用程序中起着关键作用。跨图像查找和匹配它们一直是大量研究的主题。直到最近，最好的技术还是依靠精心制作的功能[1-5]。在过去的几年中，就像在计算机视觉的许多领域一样，基于机器学习的方法，尤其是深度学习，已经开始优于这些传统方法[6-10]。

但是，这些新算法仅解决了整个处理链中的单个步骤，包括检测特征，计算特征方向以及提取鲁棒的表示形式，使我们能够在图像之间进行匹配。在本文中，我们介绍了一种新颖的Deep架构，该架构可同时执行所有三个步骤。我们证明了它比最先进的方法具有更好的总体性能，这在很大程度上是因为它允许对这些单独的步骤进行优化以相互配合良好地运行。

我们的架构，我们称为学习不变特征变换的LIFT，如图1所示。它由相互馈送的三个组件组成：检测器，方向估计器和描述符。每个模型都基于卷积神经网络（CNN），并以最近的模型[6,9,10]为基础进行了建模，这些模型已被证明可以很好地完成这些单独的功能。为了将它们网格化，我们使用空间变形器[11]来纠正给定检测器和方向估计器输出的图像斑块。我们还用软argmax函数[12]代替了非局部最大抑制（NMS）的传统方法。这使我们能够保留端到端的可区分性，并形成一个仍可以通过反向传播进行训练的完整网络，而我们所知的任何其他架构都不是这种情况。

另外，我们展示了如何以有效的方式学习这样的管道。为此，我们构建了一个连体网络，并使用由运动结构（SfM）算法产生的特征点对其进行训练，该算法在不同视点和光照条件下捕获的场景图像上运行，以了解其权重。我们在不同规模提取的图像块上制定了此训练问题，以使优化易于处理。在实践中，我们发现不可能从头开始训练整个体系结构，因为各个组件都试图针对不同的目标进行优化。相反，我们引入了针对特定问题的学习方法来克服此问题。它涉及到首先训练描述符，然后将其用于训练定向估计器，最后根据已学习的描述符和定向估计器来对检测器进行训练，从而在整个网络中进行区分。在测试时，我们将在比例空间中遍历整个图像的检测器与仅处理关键点的方向估计器和描述符分离。

在下一节中，我们简要讨论较早的方法。然后，我们将详细介绍我们的方法，并证明它优于许多最新方法。

2 相关工作

有关局部特征的文献很多，但总是围绕着寻找特征点，计算其方向和进行匹配。因此，在本节中，我们将分别讨论这三个要素。

2.1 特征点检测器

特征点检测的研究主要集中在寻找可以可靠估计其比例和旋转度的独特位置。早期的工作[13,14]使用图像信号的一阶近似值找到图像中的拐角点。 FAST [15]使用了机器学习技术，但是只是为了加快发现角点的过程。除了拐角点，SIFT [1]还检测比例空间中的斑点； SURF [2]使用Haar过滤器来加快该过程。最大稳定极值区域（MSER）[16]检测区域； [17]检测区域。 SFOP [18]使用结点和斑点，而Edge Foci [19]使用边缘来增强光照变化的鲁棒性。最近，还提出了基于更复杂和精心设计的滤波器响应的特征点[5,20]，以进一步增强特征点检测器的性能。

与专注于更好的工程学的这些方法相反，在学习检测器[21,22]的早期尝试之后，[6]表明可以学习检测器以提供比最新技术明显更好的性能。在这项工作中，学习了分段线性卷积滤波器，即使光照和季节变化也能稳健地检测特征点。不幸的是，这仅针对单个比例进行，并且是从数据集进行的，没有视点变化。因此，我们从中汲取了灵感，但必须对其进行实质性扩展，以将其整合到我们的渠道中。

2.2 方向估计

尽管事实上它在匹配特征点中起着至关重要的作用，但与检测或特征描述相比，估计区分方向的问题受到的关注明显较少。结果，SIFT [1]引入的方法仍然是事实上的标准，甚至进行了一些小的改进，例如可以像ORB [4]那样通过使用强度重心来加快它的速度。

与之不同的是，在最近的一篇论文中[9]，该论文引入了一种基于深度学习的方法来预测稳定的方向。与最新技术相比，这产生了显着的收益。我们将这种体系结构整合到我们的管道中，并在给定我们所学的描述符的情况下，展示了如何使用针对问题的培训策略来对其进行培训。

2.3 功能描述符

特征描述符旨在提供对显着图像斑块的区分性表示，同时对诸如视点或照明变化之类的转换具有鲁棒性。通过引入SIFT [1]和SURF [2]，SIFT [1]是通过梯度方向的局部直方图计算得出的，该领域已经成熟，SURF [2]使用积分图像表示来加快计算速度。沿着相似的路线，DAISY [3]依赖于定向梯度的卷积图来近似直方图，这在提取密集描述符时产生了很大的计算增益。

即使它们非常成功，这些手工制作的描述符现在也可以胜过已经学习的较新的描述符。这些范围从无监督的哈希到基于线性判别分析的监督学习技术[23,24]，遗传算法[25]和凸优化[26]。最近的趋势是使用经过大量数据训练的CNN直接从原始图像补丁中提取特征。例如，MatchNet [7]训练了一个暹罗CNN进行特征表示，然后训练了一个完全连接的网络来学习比较指标。 DeepCompare [8]表明，专注于图像中心的网络可以提高性能。 [27]的方法依靠类似的体系结构来获得窄基线立体声的最新技术结果。在[10]中，使用硬否定挖掘来学习紧凑的描述符，该描述符使用欧几里得距离来衡量相似性。文献[28]的算法依靠样本三元组来挖掘硬底片。

在这项工作中，我们依赖[10]的体系结构，因为训练了相应的描述符并将其与欧几里得距离进行比较，与需要学习度量的描述符相比，欧几里得距离的适用范围更广。

3 方法

在本节中，我们首先根据图2所示的暹罗架构来制定整个特征检测和描述流程。接下来，我们讨论训练网络所需的数据类型以及如何收集数据。然后，我们将详细描述培训过程。

3.1 问题表述

我们使用图像补丁作为输入，而不是完整图像。由于大多数图像区域不包含关键点，因此这使得学习可扩展而不会丢失信息。补丁是从SfM管道使用的关键点中提取的，如第3.2节所述。我们认为它们足够小，可以假定它们在给定的比例下仅包含一个主要的局部特征，这将学习过程简化为找到补丁中最独特的点。

查看全文

相关阅读:
第三章传奇的开始--Delphi（附读书笔记）
南沙才是根本,进军西太平洋就是一个伪命题
 Qt之自定义插件（for Qt Designer）
人类本来就是在无奈中前进的
 亚投行国家分工非常明确，一路一带是欧亚大融合之路，欢呼吧！
冒泡排序
 webkit中DOM 事件有多少
 在TMemo上画一条线（超级简单，举一反三）
判断系统64位（使用GetNativeSystemInfo函数，XP时代就有这个函数了）
项目的大小衡量标准，以及项目演进的方法（填空架子，持续集成，边开发边测试效果）

原文地址：https://www.cnblogs.com/Alliswell-WP/p/TranslationOfPapers_ComputerVision-33_17.html