Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

zoukankan html css js c++ java

Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

ICRA, (2017)

AI2-THOR开源框架：https://ai2thor.allenai.org/

Abstract

　　深度强化学习(DRL)的两个较少解决的问题是：(1) 缺乏对新目标的泛化能力，(2) 数据效率低下，即该模型需要多个(且往往是昂贵的)试验和错误回合才能收敛，这使其不适用于实际场景。在本文中，我们解决了这两个问题，并将我们的模型应用于目标驱动的视觉导航任务。为了解决第一个问题，我们提出了一个actor-critic模型，其策略是目标和当前状态的函数，可以更好地进行泛化。为了解决第二个问题，我们提出了AI2-THOR框架，该框架为环境提供了高质量的3D场景和物理引擎。我们的框架使智能体能够采取动作并与对象进行交互。因此，我们可以有效地收集大量的训练样本。
　　我们证明了我们提出的方法 (1) 收敛速度比最新的DRL方法快；(2) 跨目标和跨场景的泛化；(3) 泛化了具有少量微调的真实机器人场景(尽管模型是在模拟中进行训练的)；(4) 是端到端可训练的，并且不需要特征工程，帧间特征匹配或环境3D重建。
　　可以从以下链接访问补充视频：https://youtu.be/SmBxMDiOrvs。

I. INTRODUCTION

　　机器人技术中的许多任务涉及与物理环境和对象的交互。此类交互的基本组成部分之一是了解智能体的动作与该动作导致的环境变化之间的相关性和因果关系。自1970年代以来，已经进行了各种尝试来构建可以理解这种关系的系统。近年来，随着深度学习模型的兴起，基于学习的方法获得了广泛的普及[1], [2]。
　　在本文中，我们专注于仅使用视觉输入在空间中导航来找到给定目标的问题。成功的导航需要学习动作与环境之间的关系。这使该任务非常适合深度强化学习(DRL)方法。但是，一般的DRL方法(例如[2], [3])旨在学习仅依赖于当前状态的策略，并且目标隐式地嵌入到模型参数中。因此，有必要学习新目标的新模型参数。这是有问题的，因为训练DRL智能体在计算上是昂贵的。

　　为了获得更高的适应性和灵活性，我们引入了目标驱动模型。我们的模型将视觉任务目标作为输入，因此我们可以避免对每个新目标进行重训练。我们的模型学习将目标和当前状态共同嵌入的策略。本质上，智能体要学习采取以其当前状态和目标为条件的下一个动作，而不是仅以其当前状态为条件。因此，无需为新目标重训练模型。我们所依赖的一个主要直觉是不同的训练回合共享信息。例如，智能体在训练阶段探索共同的路线，同时接受训练以寻找不同的目标。各种场景也具有可泛化的方面(例如，冰箱通常靠近微波炉)。简而言之，我们利用这样一个事实，即已经针对其他目标训练过的模型在新目标上学习将变得更加容易。

　　不幸的是，在实际环境中训练和定量评估DRL算法通常很乏味。原因之一是在物理空间中运行系统非常耗时。此外，通过常见的图像数据集收集技术，获取真实环境的大规模动作和交互数据并非易事。为此，我们开发了具有高质量3D场景的首批仿真框架之一，称为The House Of InteRactions (AI2-THOR)。我们的仿真框架使我们能够收集大量视觉观察，以了解不同环境中的动作和反应。例如，智能体可以自由导航(即移动和旋转)，并能够与对象进行低级和高级交互(例如，施加力或打开/关闭微波)。

　　我们针对以下任务评估我们的方法：(1) 目标泛化(其中目的是导航到训练期间场景内未使用的目标)；(2) 场景泛化(其中目的是导航到未用于训练的场景中的目标)；(3) 真实世界的泛化(其中我们演示了使用真实的机器人导航到目标的过程)。我们的实验表明，在训练数据效率方面，我们优于最新的DRL方法。我们还演示了模型的泛化方面。
　　总而言之，在本文中，我们介绍了一种新颖的RL模型，该模型泛化了目标和场景。为了学习和评估RL模型，我们创建了一个具有高质量渲染的仿真框架，该框架可实现智能体的可视化交互。我们还使用少量微调将模型泛化到真实世界，从而演示了真实的机器人导航。

II. RELATED WORK

　　视觉导航方面的工作量很大。我们提供一些相关工作的简要概述。基于地图的导航方法需要环境的全局地图来做出导航决策(例如[4], [5], [6], [7])。与这些方法相比，我们的方法的主要优点之一是它不需要先验环境图。另一类导航方法是即时重建地图并将其用于导航[8], [9], [10], [11]，或经过人工指导的训练阶段来构建地图[12], [13]。相反，我们的方法不需要环境图，因为它不需要对环境地标进行任何假设，也不需要人工指导的训练阶段。无地图导航方法也是常见的[14], [15], [16], [17]。这些方法主要集中于给定输入图像的避障。我们的方法被认为是无地图的。但是，它具有对环境的隐性知识。视觉导航方法的调研可以在[18]中找到。
　　请注意，与[19], [20]不同，我们的方法不是基于特征匹配或3D重建的。此外，与[21], [22]不同，我们的方法不需要监督训练就能识别出独特的地标。
　　RL已在多种应用中被使用。[23]提出了一种用于四足机器人运动的策略梯度RL方法。[24]讨论了学习运动原语的策略梯度方法。[25]提出了一种使用单眼相机的基于RL的障碍物检测方法。[26]将RL应用于自动直升机飞行。[27]使用RL自动化映射的数据收集过程。[28]提出了一种用于大规模设置的基于核的RL算法。[29]使用RL在ATARI游戏中做出决策。与这些方法相比，我们的模型使用DRL来处理高维感官输入。

　　最近，将深度学习方法与RL集成的方法已显示出令人鼓舞的结果。[2]提出了DQN来玩ATARI游戏。[30]提出了一种基于Monte-Carlo树搜索与DRL集成的新搜索算法，该算法在Go游戏中击败了世界冠军。[3]提出了一种DRL方法，其中深度网络的参数由环境中智能体的多个异步副本更新。[1]使用DRL方法将原始图像直接映射为机器人电机的扭矩。与ATARI游戏或在受限背景下的实验室环境中拍摄的图像相比，我们的工作所处理的输入要复杂得多。此外，我们的方法可以泛化到新场景和新目标，而上述方法应该重训练，以适应新游戏，或游戏规则发生变化的情况。

　　已经做出了一些努力来开发可以泛化到不同目标任务的学习方法[31], [32]。相反，我们的模型直接将目标作为输入，而无需重训练。
　　最近，物理引擎已被用来从图像中学习真实场景的动态[33], [34], [35]。在这项工作中，我们证明了在仿真中训练的模型可以泛化到实际场景。

III. AI2-THOR FRAMEWORK

　　为了训练和评估我们的模型，我们需要一个在3D环境中执行动作并感知其结果的框架。将模型与不同类型的环境集成在一起是模型泛化的主要要求。因此，该框架应具有即插即用的结构，以便可以轻松地合并不同类型的场景。此外，框架应具有场景物理学的详细模型，以便正确地表示运动和对象的相互作用。

　　为此，我们提出了AI2-THOR框架，该框架是通过将物理引擎(Unity 3D)¹与深度学习框架(Tensorflow [44])集成而设计的。通常的想法是将物理引擎的渲染图像流式传输到深度学习框架，并且深度学习框架基于可视化输入发出控制命令，并将其发送回物理引擎中的智能体。[36], [37], [41], [39], [38]提出了类似的框架，但我们框架的主要优点如下：(1) 物理引擎与深度学习框架直接通信(与[35]中将物理引擎从控制器中分离出来相反)。直接交流很重要，因为来自环境的反馈可以立即用于在线决策。(2) 我们试图尽可能地模拟真实图像的外观分布。例如，[36]在Atari游戏上工作，该游戏是2D环境并且外观受到限制，或者[40]是非逼真的合成场景集，这些场景不遵循真实场景的分布。照明，物体外观，纹理和背景杂乱等方面的内容。这对于我们能够泛化到真实世界的图像非常重要。

　　为了为我们的框架创建室内场景，我们向艺术家提供了参考图像，以创建具有与图像相似的纹理和光照的3D场景。到目前为止，我们有32个场景，它们属于家庭环境中的4种常见场景类型：厨房，客厅，卧室和浴室。平均而言，每个场景包含68个对象实例。
　　使用物理引擎对世界建模的优势在于它具有高度可扩展性(在真实房屋中训练机器人不易扩展)。此外，可以更便宜且更安全地进行模型训练(例如，机器人的动作可能会损坏物体)。使用合成场景的一个主要缺点是真实世界的细节模型不足。但是，图形界的最新进展使得可以对真实世界的外观和物理特性进行丰富的表征，从而缩小了真实世界与仿真之间的差异。图2提供了我们框架中的场景与其他框架和数据集中的示例场景之间的定性比较。如图所示，我们的场景更好地模仿了真实世界场景的外观属性。在这项工作中，我们专注于导航，但是该框架可用于更精细的物理交互，例如施加力，抓握或诸如打开和关闭微波之类的对象操纵。图3显示了一些高层交互的示例。我们将为Python API提供AI智能体与3D场景进行交互的框架。

¹ http://unity3d.com/；https://unity.cn/（Unity中国官网）

IV. TARGET-DRIVEN NAVIGATION MODEL

　　在本节中，我们首先定义目标驱动的视觉导航的公式。然后，我们描述了针对此任务的深度孪生actor-critic网络。

A. Problem Statement

　　我们的目标是找到将智能体从其当前位置移动到由RGB图像指定的目标的最小动作序列。我们开发了DRL模型，该模型将当前观察的RGB图像和目标的另一个RGB图像作为输入。模型的输出是3D动作，例如前进或右转。请注意，模型学习从2D图像到3D空间中的动作的映射。

B. Problem Formulation

　　基于视觉的机器人导航需要从传感信号到运动命令的映射。先前关于RL的工作通常不考虑高维感官输入[45]。最近的DRL模型[2]提供了将像素信息转换为动作的端到端学习框架。但是，DRL在很大程度上专注于学习特定于目标的模型，这些模型可以单独解决单个任务。这种训练设置对于任务目标的更改非常不灵活。例如，正如Lake et al. [46]所指出的，改变游戏规则会对基于DRL的围棋游戏系统产生巨大的性能影响[30]。这种限制源自以下事实：标准DRL模型[2], [3]旨在找到从状态表征s到策略π(s)的直接映射(由深度神经网络π表示)。在这种情况下，目标被硬编码在神经网络参数中。因此，目标的改变将需要相应地更新网络参数。

　　这种限制对于移动机器人导航尤其成问题。将DRL应用于多个导航目标时，应针对每个目标对网络进行重训练。在实践中，禁止耗尽场景中的每个目标。这是由于缺乏泛化性而导致的问题——即在合并新目标时，我们将不得不重训练新模型。因此，最好有一个单一的导航模型，该模型学习无需重训练即可导航到新目标。为此，我们将任务目标(即导航目标)指定为模型的输入，而不是将目标植入模型参数中。我们将此问题称为目标驱动的视觉导航。形式上，目标驱动模型的学习目标是学习一个随机策略函数π，该函数获取两个输入，即当前状态s_t的表征和目标g的表征，并在动作空间π(s_t, g)上产生一个概率分布。为了进行测试，移动机器人不断采取从策略分布中抽取的动作，直到达到目的地为止。这样，动作就取决于状态和目标。因此，不需要对新目标进行重训练。

C. Learning Setup

　　在介绍我们的模型之前，我们首先描述RL设置的关键要素：动作空间，观察和目标以及奖励设计。

　　1) Action space: 现实世界中的移动机器人必须处理低级机制。但是，这样的机械细节使学习变得更具挑战性。一种常见的方法是在特定的抽象级别进行学习，其中底层物理由较低级别的控制器(例如3D物理引擎)处理。我们使用命令级别的动作来训练模型。对于我们的视觉导航任务，我们考虑四个动作：前进，后退，左转和右转。我们使用恒定的步长(0.5米)和转弯角度(90度)。这本质上将场景空间离散化为网格世界表征。为了建模真实世界系统动态中的不确定性，我们在步骤上添加高斯噪声，并在每个位置处变为。

　　2) Observations and Goals: 观察值和目标都是智能体的RGB相机在第一人称视角中拍摄的图像。使用图像作为目标描述的好处是可以灵活地指定新目标。给定目标图像，任务目标是导航到拍摄目标图像的位置和视点。

　　3) Reward design: 我们专注于最小化到导航目标的轨迹长度。可以考虑其他因素，例如能源效率。因此，我们仅在任务完成时提供达成目标的奖励(10.0)。为了鼓励更短的轨迹，我们添加了少量时间惩罚(-0.01)作为即时奖励。

D. Model

　　我们专注于通过DRL来学习目标驱动的策略函数π。我们设计了一个新的DNN作为π的非线性函数近似，其中时间 t 的动作a可以通过以下方式得出：

其中u是模型参数，s_t是当前观测的图像，g是导航目标的图像。当目标g属于有限离散集时，可以将π视为混合模型，其中g为每个目标索引正确的参数集。但是，真实世界中目标的数量通常是无数的(由于许多不同的位置或高度可变的对象外观)。因此，最好学习将目标转换成嵌入空间的投影。这样的投影使知识可以在这个嵌入空间中传递，因此可以使模型泛化到新的目标。
　　导航决策需要了解当前位置和目标位置之间的相对空间位置，以及场景布局的整体感。我们建立了一个新的深度孪生actor-critic网络，以捕捉这种直觉。图4说明了我们用于目标驱动的导航任务的模型。总体而言，网络的输入是代表智能体当前观测和目标的两个图像。我们对当前位置和目标之间的空间排列进行推理的方法是将它们投影到相同的嵌入空间中，并在其中保留它们的几何关系。深度孪生网络是一种用于判别式嵌入学习的双流神经网络模型[47]。我们使用两个权重共享的孪生层流将当前状态和目标转换为相同的嵌入空间。来自两个嵌入的信息被融合以形成联合表征。该联合表征通过场景特定层传递(请参见图4)。具有场景特定层的意图是捕获对于导航任务至关重要的场景的特殊特征(例如，房间布局和对象布置)。最后，该模型生成类似于A2C模型的策略和价值输出[3]。在此模型中，所有场景中的目标共享相同的通用孪生层，并且场景中的所有目标共享同一场景特定层。这使得模型可以更好地泛化目标和场景。

E. Training Protocol

　　传统的RL模型是针对分离的单个任务学习的，从而导致对于目标变化不灵活。由于我们的深度孪生actor-critic网络在不同任务之间共享参数，因此可以从同时实现多个目标的学习中受益。A3C [3]是一种RL模型，它通过并行运行训练线程的多个副本进行学习，并以异步方式更新一组共享的模型参数。已经显示出这些并行训练线程彼此稳定，从而在视频游戏领域中实现了最先进的性能。我们使用与A3C类似的训练协议。但是，每个线程都运行不同的导航目标，而不是运行单个游戏的副本。因此，梯度从actor-critic的输出反向传播回较低层。场景特定层通过场景中导航任务的梯度进行更新，而通用孪生层则通过所有目标进行更新。

F. Network Architectures

　　孪生层的底部是ImageNet预训练的ResNet-50 [48]层(截断softmax层)，这些层在224 x 224 x 3的RGB图像上产生2048-d特征。我们在训练期间冻结这些ResNet参数。我们堆叠4个历史帧作为状态输入，以说明智能体的先前动作。两个流的输出向量都投影到512维嵌入空间中。融合层对状态和目标进行了1024-d的级联嵌入，生成了512-d的联合表征。该向量通过两个全连接的场景特定层传递，产生4个策略输出(即，动作概率)和单个价值输出。我们使用共享的RMSProp优化器对网络进行训练，学习率为7 x 10^-4。

V. EXPERIMENTS

　　目标驱动导航的主要目标是找到从当前位置到目标的最短轨迹。在本节中，我们首先使用基于启发式和标准DRL模型的基准导航模型评估模型。我们提出的模型的一个主要优点是能够泛化到新场景和新目标。我们进行了两个额外的实验，以评估我们的模型跨目标和跨场景迁移知识的能力。此外，我们展示了模型的连续空间扩展。最后，我们使用真实的机器人在复杂的真实环境中演示了模型的性能。

A. Navigation Results

　　我们在Tensorflow [44]中实现我们的模型，并在Nvidia GeForce GTX Titan X GPU上对其进行训练。我们遵循第IV-E节中描述的训练协议，训练我们具有100条线程的深度孪生actor-critic模型(见图4)，每个线程都针对不同的目标进行学习。在所有线程上通过一百万个训练帧大约需要1.25个小时。我们将性能报告为从随机起点到达目标所需的平均步数(即平均轨迹长度)。导航性能是根据我们数据集中20个室内场景随机采样的100个不同目标报告的。我们将最终模型与启发式策略，标准DRL模型以及模型的变体进行比较。我们比较的模型是：

　　1) 随机游走是最简单的启发式导航。在此基准模型中，智能体在每个步骤中随机抽取四个动作中的一个。

　　2) 最短路径为我们的导航模型提供了更高的性能。当我们以恒定的步长使步行空间离散时(请参阅IV-C节)，我们可以计算从起始位置到目标位置的最短路径。请注意，为了计算最短路径，我们可以访问环境的完整地图，而我们系统的输入只是RGB图像。

　　3) A3C [3]是一种异步优势actor-critic模型，可实现Atari游戏中的最新结果。实验结果表明，使用更多的线程可以提高训练期间的数据效率。因此，我们在两种设置中评估A3C模型，其中我们使用1个线程和4个线程为每个目标进行训练。

　　4) One-step Q [3]是DQN [2]的异步变体。

　　5) 目标驱动的单个分支是我们的深度孪生模型的一种变体，它没有场景特定的分支。在这种情况下，所有目标都将使用并更新相同的场景特定参数，包括两个FC层和策略/价值输出层。

　　6) 目标驱动的最终版本是我们在第IV-D节中介绍的深度孪生actor-critic模型。

　　对于所有学习模型，我们都会在经过100M帧训练后(跨所有线程)报告其性能。性能是通过所有目标上的平均轨迹长度(即所采取的步数)来衡量的。当智能体到达目标时，或执行10000步后，回合结束。对于每个目标，我们随机初始化智能体的起始位置，并评估10个回合。结果列于表I。

　　我们用图5中的学习曲线来分析学习的数据效率。Q学习的收敛速度很慢。A3C比Q学习性能更好；另外，将每个目标的actor学习线程数从1增加到4，可以提高学习效率。当使用100M帧进行训练时，我们提出的目标驱动导航模型明显优于标准的深度RL模型。我们假设这是因为跨目标的权重共享方案和异步训练协议都有助于学习通用知识。相反，专用的RL模型的数据效率较低，因为没有直接的机制可以在不同场景或目标之间共享信息。最终模型的平均轨迹长度比单分支模型的平均轨迹长度短三倍。它证明了使用场景特定层是合理的，因为它捕获了可能随场景实例而变化的特定场景特征。

　　为了了解模型学习的内容，我们检查了通用孪生层学习到的嵌入。图6显示了嵌入向量的t-SNE可视化[49]，该向量是根据在四个不同方向上不同位置的观测值计算得出的。我们观察到这些嵌入向量的空间排列与其对应的t-SNE投影之间的显著空间对应。因此，我们假设该模型学习将观察图像投影到嵌入空间中，同时保留其空间配置。为了验证该假设，我们比较了成对投影嵌入的距离和它们对应的场景坐标的距离。Pearson相关系数为0.62，p值小于0.001，表明嵌入空间保留了观测原始位置的信息。这意味着该模型可以学习环境的大致地图，并具有针对该地图进行定位的能力。

B. Generalization Across Targets

　　除了目标驱动模型的数据有效学习之外，我们的模型还具有内置的泛化能力，这与专门构建的基准模型相比具有显著优势。我们从两个方面评估其泛化能力：1. 泛化到一个场景中的新目标，以及2. 泛化到新场景。在本节中，我们着重于跨目标的泛化，并在第V-C节中说明场景泛化。

　　我们测试模型以导航到训练中排除的新目标。我们在数据集中选取了10个最大的场景，每个场景都有大约15个目标。我们使用目标驱动模型逐步增加训练目标的数量(从1, 2, 4到8)。所有模型都训练有20M帧。在测试过程中，我们为10个新目标中的每个目标运行了100个回合。这些新目标是从一组位置中随机选择的，这些位置与最近的训练目标具有恒定的距离(1, 2, 4和8步)。结果如图7所示。我们使用成功率(短于500步的轨迹百分比)来衡量性能。我们之所以选择此指标，是因为我们的模型在新目标上具有双极性行为——它要么快速达到新目标，要么完全失败。因此，该指标比平均轨迹长度更有效。在图7中，随着我们增加训练目标的数量(x轴)，我们观察到了成功率不断提高的一致趋势。在每个直方图组中，成功率与受过训练的目标和新目标之间的邻接程度成正比。这表明该模型对受训目标周围附近区域的了解比对远处的地方更清晰。

C. Generalization Across Scenes

　　我们将进一步评估模型对场景进行泛化的能力。由于通用孪生层在所有场景中共享，因此我们研究了将知识从这些层迁移到新场景的可能性。此外，我们研究了训练场景的数量如何影响通用层参数的可迁移性。我们将训练好的场景从1个逐渐增加到16个，并对4个未见过的场景进行测试。我们从每个场景中选择5个随机目标进行训练和测试。为了适应未见过的场景，我们在固定通用孪生层的同时训练了场景特定层。结果如图8所示。随着训练场景数量的增加，我们观察到更快的收敛速度。与从头开始训练相比，迁移通用层可以显著提高在新环境中学习的数据效率。我们还将在相同的设置中评估单分支模型。由于单分支模型包括一个场景特定层，因此我们可以将经过训练的模型(针对16个场景进行训练)应用于新场景，而无需额外的训练。但是，这会导致性能差于随机，表明适应场景特定层的重要性。与从头开始训练相比，单分支模型的收敛速度略快，但比最终模型慢得多。

D. Continuous Space

　　空间离散化无需处理复杂的系统动态，例如电机控制中的噪声。在本节中，我们显示的经验结果是，相同的学习模型能够应对更具挑战性的连续空间。
　　为了说明这一点，我们在大型客厅场景中针对目标发现任务训练了相同的目标驱动模型，目标是通过门到达阳台。我们使用与以前相同的4个动作(请参阅IV-C节)；但是，智能体的移动和转向是由物理引擎控制的。在这种情况下，该方法应明确处理力和碰撞，因为智能体可能会被障碍物阻挡或沿重物滑动。尽管此设置需要更多的训练帧(约50M)来训练单个目标，但是同一模型平均要学习15步才能到达门，而随机智能体平均要走719步。我们在补充视频中提供了测试示例集。

E. Robot Experiment

　　为了验证我们的方法在现实环境中的通用性，我们使用[50]修改后的SCITOS移动机器人进行了实验(见图9)。我们在三种不同的设置下训练模型：1) 从头开始对真实图像进行训练；2) 仅训练场景特定层，同时冻结在20个仿真场景上训练的通用层参数；和3) 训练场景特定层并微调通用层参数。

　　我们在场景中的28个离散位置(每个维度彼此相距约30英寸)上训练模型(禁用向后动作)。在每个位置，机器人都使用头部摄像机拍摄4张RGB图像(相隔90度)。在测试过程中，机器人会根据模型的预测进行移动和旋转。我们评估房间中有两个目标(门和微波炉)的机器人。尽管模型是在离散空间上训练的，但它对随机起点，带噪动态，变化步长，照明和对象布局的变化等表现出鲁棒性。补充视频中提供了示例测试回合。由于真实场景的规模小，所有这三种设置都收敛于几乎最优的策略。但是，我们发现从仿真到真实数据的迁移和微调参数在这三种设置中提供了最快的收敛速度(比从头训练快44％)。这提供了关于仿真在学习真实世界交互中的价值的支持证据，并显示了使用少量微调从仿真到真实图像进行泛化的可能性。

VI. CONCLUSIONS

　　我们为目标驱动的视觉导航提出了DRL框架。最先进的DRL方法通常应用于不模仿自然图像分布的视频游戏和环境。这项工作是朝着更现实的设置迈出的一步。
　　最新的DRL方法有一些局限性，使它们无法应用于实际设置。在本文中，我们解决了其中一些限制。我们解决了跨场景和目标的泛化问题，与最先进的DRL方法相比，提高了数据效率，并提供了AI2-THOR框架，该框架能够廉价且高效地收集动作和交互数据。

　　我们的实验表明，我们的方法可以泛化到模型的端到端训练期间未使用的新目标和场景。与最新的DRL方法相比，我们还证明了我们的方法收敛于更少的训练样本。此外，我们证明了该方法在离散域和连续域中均有效。我们还表明，经过仿真训练的模型可以通过少量的微调就可以适应真实的机器人。我们提供的可视化显示了我们的DRL方法隐式执行了本地化和映射。最后，我们的方法是端到端可训练的。与常见的视觉导航方法不同，它不需要显式的特征匹配或环境的3D重建。

　　我们未来的工作包括在我们的框架中增加高质量3D场景的数量。此外，我们计划构建模型来学习框架中的物理交互和对象操作。

查看全文

相关阅读:
leetcode--Pascal's Triangle
leetcode--Sort Colors
leetcode--Gray Code
leetcode--Minimum Path Sum
leetcode--Convert Sorted List to Binary Search Tree
leetcode--Generate Parentheses
leetcode--Convert Sorted Array to Binary Search Tree
leetcode--Merge Two Sorted Lists
leetcode--Remove Element
资源分享 | JavaScript Web应用开发【Nicolas Bevacqua】.pdf

原文地址：https://www.cnblogs.com/lucifer1997/p/13968469.html