大型图像数据聚类匹配：ICCV2019论文解析

zoukankan html css js c++ java

大型图像数据聚类匹配：ICCV2019论文解析

大型图像数据聚类匹配：ICCV2019论文解析

Jointly Aligning Millions of Images with Deep Penalised Reconstruction Congealing

论文链接：

http://openaccess.thecvf.com/content_ICCV_2019/papers/Annunziata_Jointly_Aligning_Millions_of_Images_With_Deep_Penalised_Reconstruction_Congealing_ICCV_2019_paper.pdf

摘要

从大量错位图像中以完全无监督的方式外推细粒度像素级对应关系，可以解决多个计算机视觉和图形问题，例如共分割、超分辨率、图像编辑传播、运动结构和三维重建。为了解决这一问题，人们提出了几种联合图像对齐和凝结技术，但对初始化的鲁棒性、扩展到大数据集的能力和对齐精度似乎妨碍了它们的广泛应用。为了克服这些局限性，我们提出了一种无监督的联合对准方法，该方法利用一个密集融合的空间变压器网络来估计每幅图像的翘曲参数，并使用一个低容量的自动编码器作为联合对准的辅助测量。对多版本MNIST（原始、扰动、affinist和in-MNIST）的数字和LFW的人脸的实验结果表明，我们的方法能够对数百万张图像进行高精度对齐，并对不同的扰动水平和类型具有鲁棒性。此外，定性和定量结果表明，该方法在对准质量和初始化鲁棒性方面都优于现有方法。

1.       Introduction

本文的主要贡献是：

（i）一种能够同时处理100万个数据点的大规模联合对准问题的凝聚方法；

（ii）一种新的可微凝聚公式问题，它结合了先前提出的基于相似度和秩的方法的优点，并且可以很容易地通过端到端的随机梯度下降（SGD）进行优化；

（iii）在几个基准数据集上对所提出的方法和最新方法进行了广泛的实验评估，包括不同分辨率的数字和表面，评估联合对准性能和对不同大小和类型的线性和非线性几何扰动的鲁棒性。

2.       Methodology

我们采用最新的密集融合空间变换网络（DeSTNet）[3]作为模块学习，并将全局变换集（p）应用于图像堆栈。图2显示了所提出的大规模凝结方法。batch1中的每个输入图像首先由DeSTNet与参考Ij对齐，并且由基于相似度的损失D计算的对齐误差直接反向传播以更新DeSTNet的参数以实现与参考的更好对齐。一旦一批图像被对齐，它就进入惩罚自动编码器：由C计算的重建误差用于更新（i）自动编码器，即在对齐质量奇偶性下改进重建，以及（ii）进一步更新DeSTNet，即通过在自动编码器容量的奇偶校验处更好地对齐来改进重建。重要的是，我们的方法不需要梯度调整，因为总损耗的梯度（公式（8））涉及到可学习参数通过链式规则隐式无缝地分布到每个模块（自动编码器和对齐）。

3.       Experiments

我们广泛评估了所提出方法的性能，并将其与最新方法[35，15，32]在对准质量、可扩展性和MNIST上的噪声鲁棒性[24]和一些变体方面进行了比较。为了量化性能，我们采用对齐峰值信噪比。

然后，我们研究了损耗的每个单独项（D和C）对对准质量的影响，以及它们如何相互作用以在组合时达到改进的性能水平。为了将所提出的方法与深度凝固（DC）[16]2进行比较，并评估在更具挑战性的数据集上采用所提出方法的可能性，我们对框架进行了缩放，并使用它在不同的初始化下联合对齐LFW的多个子集[18]。

为了评估所提方法和基线的可伸缩性，我们首先创建多个MNIST子集，如下所示。对于{0,1,2,3,4,5,6,7,8,9}中的每个数字，我们从原始MNIST数据集中随机抽取{100020003000400050006000}个图像并分别对齐。对于所提出的方法，我们采用扩展率kF=32的DeSTNet-4[3]作为对准器，并使用表1中定义的惩罚重建自动编码器，其中我们在每一层后使用tanh非线性，除了使用sigmoid的编码器的最后一层外，将z的每个分量保持在0,1。

我们将λ=1设为同时使用基于相似性和复杂性的损失，γ=1和k=1。我们使用基于Adam的标准SGD优化程序（学习率为10-5），端到端优化整个架构。在[35，15，23]之后，我们通过计算对齐前后整个数据集的平均值和方差，定性地评估所提方法和基线的对齐结果。为了评估可伸缩性，我们测量RASL、t-GRASTA的相对处理时间，以及在对齐越来越多的图像时提出的方法。

由于硬件上的差异（基线使用的cpu，所提出的方法使用的gpu），我们将处理时间关于标准化为对齐1000个图像所需的时间，以提供公平的比较。如图3所示，对于数字“3”3的情况，所提出的方法比基线的尺度更好。此外，如图4所示，在最具挑战性的情况下，即具有6000个图像的数据集，更清晰的平均值和更低的方差图像（因此更高的APSNR）表明所提出的方法也实现了更好的对齐。

我们评估了每种方法对基于随机透视扭曲的合成失真的鲁棒性。具体来说，假设每个MNIST图像是s×s像素（s=28），每个图像的四个角用高斯噪声

独立随机缩放，然后用相同的噪声模型随机平移。我们评估了三个扰动水平下的对准质量，即

。为此，我们将此扰动模型应用于每6000个图像数据集，并在图4中报告结果的子集。我们观察到，尽管RASL和tGRASTA似乎能很好地处理10%的扰动，但在20%时对准性能会显著下降，在最具挑战性的30%时，它们往往会失败。另一方面，该方法在所有数字和显著噪声下对该扰动模型具有很强的鲁棒性。

如等式（8）所述，所提议的凝结方法利用了基于相似性和复杂性的损失（即，分别在等式（5）和等式（7）中的D和C）。为了弄清每一项对最终结果的贡献，我们评估了当两个损失中的一个被排除在优化之外时的联合对准性能。6（b）和（c）分别示出了不包括D和c时的对准结果，而在图6（D）中示出了使用两者时产生的对准结果。我们观察到，一般来说，排除D对最终对准结果的影响更大；此外，在计算D时使用参考图像使优化更加稳健，因为它隐式地避免了仅使用C时通常观察到的收缩效应。

后者是因为，在自动编码器的重建能力的奇偶性下，当要重建的对象显示出较少的空间可变性并且因此可以更好地重建4时，获得较低的复杂度度量（见等式（7））。我们观察到，（i）仅基于D的损失加上C，有助于进一步重新确定校准结果并实现更低的方差（见数字“6”和“9”）；（ii）重要的是，C倾向于推动整体优化朝着有利于更（空间上）均匀校准的解决方案发展，如数字“3”所示；在从这个意义上讲，基于复杂性的损失可以解释为一个正则化。

到目前为止，所提出的方法已经显示出对全局af-fine/透视摄动和每个数字多达100000个样本的联合对准问题的鲁棒性。在这里，我们评估了在非线性（局部）变形（例如票务）和平移下的对齐性能，并解决了列表[28]5中采样的每个数字1000000个图像的联合对齐问题。注意，我们使用上述相同的参数设置来评估在更具挑战性的关节对准问题中提出的方法的稳健性和推广性。如图8所示，尽管随机平移比affinst中使用的平移相对较小，但非线性扰动增加了更高级别的类内可变性。然而，该方法在这种尺度和这种扰动下实现了显著的关节对准。

为了适应输入图像大小的差异，并考虑到更复杂的基于MNIST的任务数据集，如表1所示，我们对校准器和编码器-解码器块进行了缩放。在图9中，我们将所提出的方法与RASL[35]、PSSV[32]和深度凝固[16]进行了定性和定量的比较，可在http://vis-www.cs.umass.edu/lfw/上获得用Viola-Jones面部探测器初始化的联合对准结果。为了公平比较，我们对建议的方法和基线采用相同的初始化。我们观察到，总的来说，所提出的方法优于RASL、PSSV和深度凝固，在APSNR方面，这是由所有受试者更清晰的平均图像定性地证实的。此外，与RASL和PSSV不同，所提出的方法不受放大/缩小效应的影响，使得优化集中在感兴趣区域的较小/较大部分。这可以归因于D中参考图像的使用。

尽管近年来在人脸检测方面取得了重要进展[7，46，48，42]，但在实际应用中，一定程度的不准确是不可避免的。因此，评估该方法对粗初始化的稳健性是很重要的。为此，我们将Viola-Jones人脸检测器返回的初始包围盒的宽度和高度分别增加了15%和30%，并在图10中报告关节对齐结果。我们观察到，当初始化不接近对象时，RASL（图10（b，e））和PSSV（图10（c，f））的性能都显著下降，这是由平均APSNR的急剧下降和平均对齐面模糊所证实的。相反，所提出的方法对初始化具有很强的鲁棒性：如图10（d，g）所示，我们的平均对齐面是干净和清晰的，这表明即使在30%大的包围盒中，对齐的程度也是显著的。

根据[35，15]中采用的协议，我们通过计算三个地标（眼睛外角和鼻尖）位置的平均误差，进一步量化对准性能，计算为估计位置到中心的距离，通过眼睛到眼睛的距离进行标准化。我们将我们的对齐性能与RASL（最佳基于秩的基线）和DC（深度学习方法）进行比较。我们对给定主题中每个标准化的性能进行平均，并在表2中报告它们。

基于上述考虑，当采用原始初始化时，所提出的方法在所有受试者中获得的误差最小。此外，在15%的粗初始化RASL开始显示出对一些主题的困难，在30%的性能下降显着。相反，所提出的方法显示出更强的鲁棒性跨学科和初始化。

4.       Conclusions

图像对齐是计算机视觉的一个重要研究领域。然而，以往提出的方法大多集中在识别一对图像之间的像素级对应关系上。相反，过多的其他任务，如共同分割、图像编辑传播和运动结构，将从在一组图像之间建立像素级的对应关系中受益匪浅。先前已经提出了几种凝聚或联合对齐方法；然而，对大型数据集的可伸缩性以及对初始化和类内可变性的有限鲁棒性似乎妨碍了它们的广泛应用。为了解决这些局限性，我们提出了一种新的凝聚方法，并证明它能够同时处理大规模的联合对准问题，即多达一百万个数据点。这是通过对凝结问题的一种新的可微公式实现的，该公式结合了相似性和基于秩的凝结方法的优点，可以很容易地使用标准SGD进行端到端的优化。在不同分辨率的数字和人脸等多个基准数据集上的大量实验结果表明，所提出的凝聚框架在可扩展性、对齐质量以及对不同量级和类型的线性和非线性几何扰动的鲁棒性等方面都优于现有方法。

查看全文

相关阅读:
Go组件学习——Web框架Gin
一次线上接口超时的排查过程
 Go组件学习——手写连接池并没有那么简单
 终于跑通分布式事务框架tcc-transaction的示例项目
 Go语言学习——如何实现一个过滤器
 Go组件学习——database/sql数据库连接池你用对了吗
 我们这一年 | 诗人呀
 NodeMan架构
 NodeMan介绍
 微信小程序录音实现

原文地址：https://www.cnblogs.com/wujianming-110117/p/12600513.html