CSWS_E_ROB深度估计方法

zoukankan html css js c++ java

CSWS_E_ROB深度估计方法

论文链接：https://arxiv.org/pdf/1708.02287.pdf

正文翻译

概述

……首先，我们把深度估计看做一种多类别的密集标记任务，然后与基于公式的回归问题类比。这样，我们可以依赖于像语义分割上的密集标记的最新进展。其次，我们将前端扩展卷积神经网络的不同侧向输出以分层方式融合，以利用多尺度深度线索进行深度估计，这对于实现尺度感知深度估计是至关重要的。第三，提出利用软加权和推理代替硬最大推理，将离散的深度分数转换为连续的深度值。因此，我们减少了量化误差的影响，并提高了我们的方法的鲁棒性。……

1.介绍

……传统的方法主要是利用多幅图像进行深度预测，包括Nview重建、SfM结构和SLAM[]。

然而，从单目单视点的深度估计远远落后于它的多视点对应。这主要是由于问题本身是病态的并且本质上是模糊的：单个图像本身并不明确地提供任何深度提示（即，给定场景的彩色图像，存在无穷多个3D场景结构来精确地解释2D测量）。当特定的场景相关知识可用时，可以通过利用诸如“块世界”模型〔5〕、“折纸世界”模型〔6〕从阴影（7）形状和结构重复〔8〕的几何假设来实现单个图像的深度估计或三维重建。然而，这些线索通常用于具有特定结构的图像，并且可能不适用于一般场景。

近年来，基于学习的单目深度动画方法，通过从数据中学习直接预测场景几何，得到了广泛的应用。通常，这些方法通过利用单目图像和深度之间的关系来重铸像素级场景标记流水线中的底层深度估计问题。完全卷积神经网络已被证明是解决这类问题的有效方法。深层卷积神经网络（CNN）在解决这一问题上取得了长足的进展，并取得了优异的性能[7、8、9、10、11、12、13、14]。

尽管取得了上述成功，但是由于以下困难，现有技术的单目深度估计方法仍然不足以处理现实世界中具有挑战性的描述不同尺度的多个对象的复杂分解：

1）由于透视效应造成的严重的数据不平衡问题，其中小深度的样本远大于大深度的样本；

2）与其他稠密预测任务（如语义标注）相比，深度值的变化更为迅速；

3）需要深度上下文信息来处理深度估计中的尺度模糊。尽管已经存在各种后处理方法来从深度网络图[7、8、9、10、11、12、13、14]中提取估计的深度，但是改进单目深度估计的瓶颈仍然是特别设计的CNN体系结构，这是非常期望的。

本文提出了一个基于CNN的深度映射框架，用于解决上述问题，它以端到端的方式学习从彩色图像到相应深度图的直接映射。我们改写单目深度估计作为一个多类别密集标签作为对比广泛使用的回归公式。我们的网络基于深度残差网络[15]，其中扩展卷积和分层融合层被设计成扩展接收场并融合多尺度深度线索。为了减少量化误差的影响，提高我们的方法的鲁棒性，我们建议使用软加权和推理。大量的实验结果表明，即使我们把网络训练成具有多项逻辑损失的标准分类任务，我们的网络也能够学习不同类别之间的概率分布。我们的框架的总体流程图如图1所示。

我们的主要贡献可以被总结如下：

1）通过将单目深度估计重铸为分类任务，我们提出了单目深度估计的深度端到端学习框架，其中扩展卷积和分层特征融合被用于学习感知尺度的深度线索。

2）我们的网络能够输出不同深度标签之间的概率分布。提出了一种软加权和推理方法，可以减少量化误差的影响，提高鲁棒性。

3）我们的方法实现了最先进的性能在室内和室外基准数据集，NYU V2和KITTI数据集。

图片1

相关工作

深度学习方法与MRF、CRF方法：

MRF/CRF：Saxena等人的开创性工作。[16，17]利用多尺度马尔可夫随机场（MRF）模型，通过监督学习来学习模型的参数。Liu等人。[18]从预测的语义标签估计深度图，用更简单的MRF模型实现改进的性能。拉迪基等人[19]表明透视几何可以用来改善结果，并演示了场景标记和深度估计在统一框架下如何互惠互利，其中提出了像素级分类器来联合预测来自单个图像的语义类和深度标签。除了这些参数化方法之外，其他工作，如[20，21，22]以非参数方式重铸单目深度估计，其中从候选深度图推断出整个深度图。刘等人〔21〕提出了一种离散的连续CRFS，其目的是避免过度平滑和保持遮挡边界。阿尼班等。[]提出了一个神经回归森林模型来解决这个问题。这些工作为单幅图像深度估计问题提供了重要的见解和线索，而大多数工作利用手工制作的特征，从而限制了它们的性能，特别是对于复杂场景.

深度学习方法：

近年来，由于深度卷积神经网络（CNNs），单目深度估计得到了很大的发展。艾根等人。〔23〕通过训练一个大型的深度美国有线电视新闻网，提出了一个框架。然而，部分由于网络模型中使用的完全连接层，它们的网络必须用非常大的数据进行训练。相比之下，李等人。[7]提出了基于补丁的CNN框架和层次CRF模型对原始估计深度图进行后处理，显著减少了训练图像的数量。刘等人。〔8〕提出了一种CRF—CNN训练架构，可以共同学习CRF和CNN的参数。王等。〔9〕提出了一种联合语义标注和单眼深度预测的CNN体系结构。陈等人。〔24〕提出了利用相对深度标注来估计度量深度的算法。

最近，Laina等人。〔12〕提出利用Huber损失代替L2损失来处理深度分布的长尾效应。曹等。_11_表明，将深度估计公式化作为分类任务，可以获得比具有L2损失的回归更好的结果，但未能给出足够的成功分析。此外，与我们的方法不同，他们在测试阶段使用硬MAX推断。许等。[13]提出一种多尺度连续CRF，用于更好地提取层次信息，提高最终结果的平滑度。我们的分层信息融合策略比（13）简单得多，同时我们也取得了类似的结果。

无监督单目深度学习方法：

除了上述使用地面真值深度图来监督网络学习的方法之外，还有另一组方法，利用立体图像和图像序列的可用性，使用新颖的视图合成来监督网络学习[25][14][26][27]——无监督深度估计。Garg等人[25]提出使用图像重建损耗训练用于单目深度估计的网络，其中执行泰勒近似以线性化损耗。Godard等人[14]将训练期间显式深度数据的使用替换为更容易获得的双目立体画面，这加强了相对于左图像和右图像产生的视差之间的一致性，从而与现有批准相比提高了性能和鲁棒性。沿着这条流水线，周等人（26）提出了一种无监督的学习框架，用于基于图像扭曲的非结构化视频序列的单目深度和摄像机运动估计，以评估图像误差。Kuznietsov等人[27]以半监督方式学习深度，其中联合使用稀疏地面真值深度和光敏性。Ummenhofer等人[28]训练了卷积网络端到端以从连续的、无约束的图像对计算深度和相机运动，其中体系结构由多个堆叠的编码器-解码器网络组成。

这些“无监督”方法的关键监控信号来自新视图合成的任务：给定场景的一个输入视图，合成从不同相机姿态看到的场景的新图像。本质上，对整流立体图像或连续图像帧已经隐式地编码深度信息。

我们的工作还涉及到基于FCN（完全卷积网络）密集标签的工作。朗等。[29]提出了用于语义分割的全卷积神经网络，它被广泛应用于其他密集标记问题。哈里哈兰等。〔30〕提出低层美国有线电视新闻网特征优于边界保持和目标定位。最近，余等人。[31]证明了扩张卷积在保持特征图分辨率的同时，能够扩大相应神经元的接收域。陈（32）成功地将扩展卷积应用于语义问题，并展示了如何在预先训练的CNN上建立它们。

我们的框架

针对当前状态估计方法面临的现实挑战，我们提出了单目深度估计的深度端到端学习框架，该框架学习从彩色图像到相应深度图的直接映射。我们的单目深度估计框架包括两个阶段：具有分类损失的模型训练和具有软加权和的推理。首先，通过将单目深度估计重铸为多类标记，我们设计了一个分层融合扩展CNN，以直接学习RGB图像到相应深度得分图的映射。我们的网络体系结构分层地融合了多尺度深度特征，这对于实现基于尺度的单目深度估计具有重要意义。其次，我们提出一个软加权和推理作为与硬最大推理的对比，它把离散的深度分数转换为连续的深度值。这样可以减少量化误差的影响，提高鲁棒性。

3.1网络体系结构

我们的CNN架构如图2所示，其中权重是从预先训练的152层深度剩余CNN(ResNet)[15]初始化的。与现有的深层网络[33]不同，ResNet[15]明确地学习了关于层输入的残差函数，这使得从显著增加的网络深度以更高的精度进行优化更容易。RESNET（15）最初是为图像分类而设计的。在这项工作中，我们的目的是使其适合于我们的深度估计任务

1）移除所有全连接层。以这种方式，我们大大减少了模型参数的数量，因为大多数参数都在全连接层[10 ]中。虽然保留完全连接层有利于提取远程上下文信息，但我们的实验表明，由于扩展卷积，在我们的网络中没有必要这样做。

2）利用扩张卷积的优点。扩展卷积可在不增加模型参数数目的情况下扩展神经元的感受野。此外，通过扩展卷积，我们可以在不减小相应神经元感受野大小的情况下去除一些汇聚层。此外，我们可以保持特征图和最终结果的分辨率，即，输出分辨率提高了。

3）Hierarchal融合。我们直接将中间特征映射与最终特征映射连接起来。这种跳跃连接设计有利于多尺度特征融合和边界保持。

扩张卷积：近年来，扩展卷积[31]在深层卷积神经网络中得到了成功的应用，在不增加模型参数的情况下，扩展了感知领域。

让F：Z^2 -> r 离散函数。让Ω(r) = [r,r]^2 ∩ Z^2 并且让k:Ω(r) -> R 是一个大小为(2r + 1)^2的离散滤波器。离散卷积层 * 可以被表示为(F*k)(p) = Σ_s+t=pF(s)k(t)

我们现在推广这个算式，l为一个扩张因子，让×l定义这个算式：(F*_lk)(p) = Σ_s+lt=pF(s)k(t)

我们把*l看做一个扩张卷积或者一个l 扩张卷积。传统的离散卷积是一个简单的1扩张卷积。一个简单的示例如下：

分层融合：由于CNN具有层次结构，这意味着高级神经元具有更大的感受野和更抽象的特征，而低级神经元具有更小的感受野和更详细的信息。因此，组合用于像素级预测任务的多尺度信息已经得到相当大的兴趣。

我们建议级联高级特征映射和中间特征映射。跳过连接结构既有利于多尺度融合，又有利于边界保持。在我们的网络中，L1、L2、L3、L4层大小相同，我们直接连接它们。

总之，我们简要总结了我们的最终网络设计。典型地，预训练残差网络由4部分组成。最后2部分去掉了最大池化层，分别用扩张2和扩张4扩展了相应的卷积核。然后，添加级联层来融合来自层L1～L4的分层多尺度信息。我们的网络的最后两层是卷积层和反卷积层。参数设置在图2中给出。

3.2 软加权推论

通过对测井空间中的深度值进行等值离散，将深度估计重新表示为分类任务。像：

l = round((log(d) − log(d_min))/q)

这里l是一个量化标签，d是连续的深度值，d_min实在数据集中最小的深度值，或者设置为一个小的值像0.1，q是量化仓的宽度。

利用量化标签，利用多项式逻辑损耗对网络进行训练。

这里N是训练样本的数量，是label k是样例i的可能性，并且k是地面真实数据。

在测试阶段，我们提出使用软加权和推理。值得注意的是，该方法以一种自然的方式将预测得分转换为连续深度值。明确地：

这里W是深度仓的权重变量，p是输出分数。在我们的试验中，我们把深度仓的数量设置到200.

3.3 数据扩充

虽然训练数据集是由数万张图像组成的，但是我们仍然发现数据增强对于提高最终性能非常重要。在本工作中，我们对NYU v2和KITTI数据集都进行了4次扩充。我们使用的增强方法包括：

颜色：颜色通道都被随机的乘以一个因子 c∈[0.9, 1.1]

规模：我们将输入图像按s∈[1.3，1.5]的因子进行随机缩放，并裁剪图像的中心块以匹配网络输入大小。

左右翻转：我们水平地翻转左右图像

旋转：我们将输入图像随机旋转，r∈[ -5, 5 ]。

3.4 实现细节

在进行实验结果之前，我们给出了该方法的实现细节。我们的实现基于高效的CNN工具箱：带有NVIDIA Tesla Titian X GPU的caffe[34]。

该网络采用批量大小为1的随机梯度下降法训练（此规模太小，因此我们平均一次反向传播8次迭代的梯度）、动量0.9和重量衰减0.0004。权重由ResNet[15]中的预训练模型初始化。在最初的30k次迭代中，通过固定学习速率0.001以50k的迭代训练网络，然后每10k次迭代除以10。

实验结果

在本节中，我们报告了针对室外和室内场景的单目深度估计的实验结果。我们使用了NYU V2数据集和KITTI数据集，因为它们是我们目前能够访问的最大的开放数据集。我们比较了我们的方法和最近发表的最新方法。

为了更好地评估，我们沿用了一下的评价指标：

4.1 NYU V2数据集

NYU V2数据集[4]包含大约240kRGB深度的图像对，其中来自464个场景，用Microsoft Kinect捕获。官方划分包括249个训练和215个测试场景。我们同样地从每个训练序列中采样帧，得到大约24k个唯一的图像。在离线增强之后，我们的数据集包括大约96k个RGBD图像对。我们使用“着色”方法填充原始深度图的无效像素，该方法提供在NYU V2数据集的工具箱中[4]。

原始图像分辨率为480×640。我们将图像下采样到240×320作为网络输入。我们的网络输出的分辨率是120×160，是输入大小的一半。在这个数据集中，我们将深度值量化为200个bins。

4.2 KITTI数据集

……

查看全文

相关阅读:
包装器
 高级new创建
 野性的呼唤第三章
 SourceTree的基本使用
 SAP的春天回来么？
dirname命令和basename命令
 一个简单的ETL脚本的内容
 轮子：读取config.ini文件
 sed基础语法
 hivesql之str_to_map函数

原文地址：https://www.cnblogs.com/19991201xiao/p/9998848.html

CSWS_E_ROB深度估计方法

概述

1.介绍

相关工作

我们的框架

实验结果