zoukankan      html  css  js  c++  java
  • Representation Learning for Eventbased Visuomotor Policies

    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

    35th Conference on Neural Information Processing Systems (NeurIPS 2021).

    Abstract

      基于事件的相机是动态视觉传感器,可提供微秒级每像素亮度变化的异步测量。这使得它们比传统的基于帧的相机快得多,并且是高速导航的一个有吸引力的选择。虽然这是一种有趣的传感器模式,但这种异步流式传输的事件数据对更适合基于帧的数据的机器学习技术提出了挑战。在本文中,我们提出了一个事件变分自编码器,并表明直接从异步时空事件数据中学习紧凑表征是可行的。此外,我们表明这种预训练的表征可以用于基于事件的强化学习,而不是端到端的奖励驱动感知。我们通过将其应用于模拟中的避障场景来验证这种学习基于事件的视觉运动策略的框架。与将事件数据视为图像的技术相比,我们表明从事件流中学到的表征可以更快地进行策略训练,适应不同的控制能力,并表现出更高程度的鲁棒性。

    1 Introduction

      由感知和动作之间的紧密耦合驱动的自主导航对于快速且灵活的机器人尤其具有挑战性,例如通常部署在杂乱且低海拔地区的无人驾驶微型飞行器(MAV)。对于诸如避障等反应式导航应用,低传感器延迟是成功执行敏捷机动的关键[1]。MAV的尺寸和有效载荷容量也受到限制,这将机载传感器的选择限制为小型且低功耗的传感器,并且处理算法的计算负载最小。

      用于感知和导航的现代计算机视觉和机器学习技术通常侧重于分析来自传统基于CMOS的相机的数据,采用各种形式,如RGB图像、深度图等。虽然这些相机提供高分辨率数据,但这些传感器的主要缺点是它们的速度,大多数平均输出频率为30-60 Hz。这使得此类传感器无法扩展到敏捷导航所需的感知数据速率。

      受生物视觉的启发,神经形态工程产生了一种称为动态视觉传感器或基于事件的相机[2]的新型传感器。这些相机以每像素为基础检测和测量对数亮度的变化,并以微秒级的时间分辨率返回有关"事件"的信息。由于这些相机的采样速度提高,解析数据所需的处理最少,使用事件相机的感知比传统方法快得多。这可以允许使用更快的控制方案,因为可以快速收集足够的相关环境信息以便做出明智的控制选择。此外,事件本质上是由通常由运动引起的亮度变化产生的。这使得事件相机成为自然的运动检测器,非常适合学习控制策略。

      但是事件相机的根本不同的视觉表征对快速采用提出了重大挑战。事件相机产生快速且异步的时空数据,与传统机器学习算法所期望的基于同步帧的数据显著不同。此外,事件相机记录的数据质量不同于传统的感知传感器;传感器返回的低级数据可能会根据像素的发放顺序、光照条件、反射或阴影而显著变化。

      先前的研究已经通过两大类技术来处理这种模式。一些方法[3, 4]随着时间的推移将事件数据累积到二维框架中,并使用传统的基于计算机视觉/卷积神经网络的技术和这些基于帧的输入。结合这种积累的传统CNN方法无法利用事件相机的真正优势,例如微秒级的时间分辨率,并且可能被证明对于机载受限平台上的高速动作生成过于密集。另一类技术涉及使用脉冲神经网络(SNN)[5]。SNN通过脉冲神经元操作来识别时空发放,使其成为事件相机的自然匹配。然而,训练脉冲神经网络很困难,因为它们不使用标准的反向传播,并且通常需要专门的硬件才能真正实现其效率[6, 7]。

      在本文中,我们提出使用传统(非脉冲)机器学习方法直接从原始事件相机流中学习表征,并在此类表征上学习视觉运动策略(图1)。我们提出了一个事件变分自编码器(eVAE)框架,用于以允许高时间分辨率以及对数据排列和稀疏性的不变性的方式从事件数据中学习表征。eVAE配备了一个事件特征计算网络,可以处理来自任意序列长度或递归方式的异步数据。受到Transformer网络最近成功[8, 9, 10]的启发,eVAE使用一种时间嵌入方法,在计算潜在表征时保留事件时间信息。接下来,我们通过在强化学习(RL)框架中将它们用作观察结果,表明此类表征对于反应式导航是有益的。我们展示了在eVAE表征上训练RL策略如何允许控制策略泛化到不同的数据速率甚至分布外的环境。我们将无人机的避障定义为我们感兴趣的任务,并展示了如何有效地利用事件相机数据以高控制率进行避障。通过事件数据模拟器,我们模拟了假设无人机在高达400 Hz的场景被控制,并表明表示处理稀疏数据的能力使策略能够适应高控制率。下面列出了我们工作的主要贡献。

    1. 我们提出了一个事件变分自编码器,用于从快速且异步时空事件字节流数据中进行无监督表征学习。
    2. 我们表明,这些事件表示捕获了足够的上下文信息,可用于学习反应性视觉运动策略。
    3. 我们在模拟中使用强化学习为无人机避障训练事件表征策略,并表明它们在基于事件的强化学习中优于当前最先进的技术。
    4. 我们讨论了使用字节流表示策略的优势,例如:适应不同的控制能力、对环境变化和噪声的鲁棒性。

    2 Related Work

    Vision-based representations and navigation: 变分自编码器已被证明可以有效地从复杂的视觉数据中学习结构良好的低维表征[11, 12, 13]。利用这些方法,最近的研究集中在感知和规划的解耦上,表明用于表征和导航的单独网络是有效的[14, 15]。由于该表征有望以一定程度的不变性捕获有关世界的丰富显著信息,因此这种组合允许更高的样本效率和更小的策略网络大小[16]。

    Feature learning from Event Cameras: 在处理事件数据方面进行的一些早期工作导致使用异步数据计算光流,专注于以最小带宽进行高速计算[17]。事件表征包括平均时间面的直方图(HATS),其中时间数据被聚合以创建能够用作传统技术[18]和基于事件的时间面层次结构(HOTS)的输入的平均数据点,这是模式识别的另一种表征[19]。

    Learning from Sequences and Sets: 从事件数据中学习可以看作是学习长可变长度的序列的一种情况。虽然发现传统RNN对于这样的长度是不可行的,但诸如Phased LSTM [20]之类的方法提出为长序列添加一个时间门到LSTM。如果将空间和时间部分解耦,则问题可以重新表述为从集合中进行置换不变的学习。Qi et al. [21]提出了PointNet,这是一种旨在从3D点云数据中学习的置换不变方法。同样,Lee et al. [22]提出了Set Transformer,这是一种基于注意力的集合学习方法。

    Event Cameras and Machine Learning: 从机器学习的角度来看,Gehrig et al. [23]引入了一个完整的端到端流水线,用于学习表示基于事件的数据,其中讨论了几种变体,例如聚合到基于网格的表征中的事件数据、事件脉冲张量和3D体素网格。卷积神经网络的异步版本也在开发中,以利用数据的稀疏性,例如事件相机[24, 25]的数据。堆叠空间LSTM网络与事件序列一起用于[4]中的姿态重定位。EV-FlowNet [26]是一种用于事件的自监督光流的编码器-解码器架构,它使用通过卷积层处理的基于帧的输入。事件数据的异步性质是通过EventNet [27]中的置换不变和递归方法处理的。基于事件相机的感知也用于其他应用,例如光流的自监督学习[28]、自动驾驶汽车的转向预测[3]。脉冲神经网络也被用于检查基于事件的数据[29, 30, 31, 32, 33, 34]。

    Sensorimotor Policies with Event Cameras: 直到最近才有将事件相机数据与感觉运动策略相结合的工作。事件相机数据与[35], [36]中的自主无人机着陆控制相结合。EVDodge [37]通过使用事件数据跟踪移动物体并基于这些测量推断安全避让动作,将多个模块(如单应性、分割)与经典控制策略驱动的动作相结合,为无人机创建了一个避让系统。在[38]中,事件相机数据还用于通过跟踪滚转角和角速度,为固定台架上的无人机提供闭环控制方案。使用事件相机数据的强化学习最近才被探索,使用累积的事件帧输入基于CNN的策略网络,用于地面机器人[39]和无人机避障[40]。

    3 Representation Learning for Event Cameras

    3.1 Event-based camera

      基于事件的相机是一种特殊的视觉传感器,可独立测量每个像素的强度水平变化。给定像素位置(x, y),基于事件的相机的基本工作原理是测量该像素的对数亮度变化,即Δlog I({x, y}, t),其中 I 是光强。当对数亮度的这种变化超过设定的阈值时,相机会生成一个"事件",报告变化的时间和位置,以及变化的"标志"。与每秒输出设定帧数的传统相机相比,事件相机以字节流的形式及时且稀疏地输出事件,我们将其称为事件"字节流"。这些事件以不均匀的速率产生,数量可以从每秒零到数百万个事件。例如,DAVIS 240摄像机[41]的理论最大限制为每秒1200万个事件。

    3.2 Definitions and Notations

      对于分辨率为(H,W)的事件相机,事件可以定义为四个量e = (t, x, y, p)的元组,其中 t 为相机报告事件的全局时间戳,(x, y)为像素坐标,p 为极性。因此,时间窗口上的一系列事件可以表示为Eτ = {ei|t < i < t + τ}。当在更长的事件序列上滑动恒定时间窗口时,我们可以看到 E 的长度不会恒定,因为在该间隔内触发的事件数量会根据环境或感官考虑而变化。E 中的事件也可以累积并表示为相应的事件图像帧

    3.3 Event bytestream processing

      给定事件数据作为任意长的字节流 Eτ,表征学习的目标是通过编码器函数qe(Eτ)将其映射到表示环境 z 潜在状态的压缩向量。这里的挑战是双重的。首先,由于事件相机数据的非均匀性和异步性,同一场景在由事件相机多次成像时可能会导致输出的不同排列。因此,为了处理事件相机的异步性,我们需要一种对数据排序不变的特征计算技术。其次,虽然事件序列是基于时间的数据,但由于序列长度通常很长,循环神经网络将被证明是不可行的。将时间信息与空间/极性信息解耦可以缓解这个问题。我们提出了一个称为事件上下文网络(ECN)的主干来为事件数据实现这一点。

      ECN可以被认为是事件流的预处理神经网络,类似于旨在学习无序空间数据的架构,如PointNet [21]和EventNet [27]。ECN采用任意长的事件列表,并首先为每个事件计算一个特征。最终,这些特征通过一个对称函数(类似于PointNet,我们也使用了max操作),从而产生了一个全局特征,该特征有望从所有事件中浓缩信息。此函数的对称性质确保给定列表中的这些事件可以作为单个批次处理,也可以使用任何小批量大小递归处理以计算输出。我们称这个特征网络的输出为"上下文向量"。ECN由三个密集层组成,对于 N 个输入事件,输出N×D组特征。传递到这些密集层的数据只是事件的(x, y, p)部分——接下来我们将讨论如何处理时间信息。

    3.3.1 Temporal embedding

      事件数据中的时间戳固有地编码了在给定时间片内感知到的场景的连续时间表征,保留它们很重要,这样压缩的表征就足以提供世界状态演变的信息。另一方面,合并时间戳并不简单。由于数据的异步性,特定事件在给定序列内可能具有任意时间戳。因此,将时间数据直接作为ECN的输入会干扰特征计算,因为全局时间戳是任意值,甚至每次接收到新事件时每个事件的相对时间差都会改变,需要重新计算特征。

      相反,我们提出使用"时间嵌入",其灵感来自于[8]中首次为Transformer网络提出的位置编码原则。对于具有 n 个事件的事件集 En,我们首先将时间戳归一化为[0, 1],使得对应于窗口结束的时间戳映射到1。这允许模型以可推广的方式对事件的新近度进行编码,从而允许模型了解哪些事件比其他事件更重要,因为它们代表场景中的最近活动,而不管事件序列的长度如何。ECN为每个归一化时间戳计算 d 维时间特征,如下所示。

    这些嵌入与它们相应的特征相结合。ECN将这个N × D特征集通过对称函数max来获得一个1 × D的最终上下文向量。ECN包含三个用于特征计算的密集层以及时间嵌入模块和最大池运算符(图2)。

    3.4 Event Variational Autoencoder

      在学习控制表征时,有效的降维技术创建平滑、连续且一致的表征非常重要。还希望将编码向量的维度映射到感知信息的特定学习属性,然后控制策略可以利用这些属性进行可解释学习。为了实现这一点,我们使用变分自编码器扩展了上一节中描述的特征计算。

      变分自编码器(VAE)[11]提供了一个概率框架,用于将观察结果映射到潜在空间。因此,VAE要求其编码器为每个潜在属性描述概率分布,而不是将属性随机映射到输出。在当前框架中,事件VAE (eVAE)对ECN计算的上下文向量进行操作,并尝试将其投影到压缩的潜在空间中。我们的编码器由两个密集层组成,如图2所示。在解码阶段,我们不是尝试重建整个输入流,而是使用"事件图像解码器",它尝试将潜在向量解码回与输入序列对应的近似事件图像。该事件图像是一个单通道图像帧,它是根据像素位置和极性值累积所有事件的结果,按相对时间戳缩放。与标准VAE损失类似,eVAE尝试通过最大化训练数据的边际对数似然来学习参数潜变量模型,该模型由事件图像重建损失和KL散度损失组成。组合损失可以表示如下,其中第一项表示重建损失,P(z)是潜在变量的分布,Q(z|x)是VAE的近似后验。

      这里要注意的一个关键点是,这偏离了自编码器的传统定义,其中寻求完美的输入重构。相反,eVAE的编码器-解码器结构对"上下文向量"或事件特征进行操作;而不是输入流本身。因此,目标是以可泛化的方式对环境的本质进行编码,从而利用数据的低级性质。解码器 qD 是另外两个密集层网络,它采用(采样的)潜在向量 z 并输出重建图像

      训练是端到端进行的,因此ECN和编码器-解码器的权重都是同时学习的。在训练时,eVAE可以通过两种方式接收输入数据。数据可以作为一组批次传递,每批次具有预定义的事件数量,或者可以根据预定义的时间窗口进行切片,其中每个窗口具有不同数量的事件。在推断过程中,与我们的应用一样,eVAE预计会驱动控制命令,时间窗口的长度对应于车辆的控制频率。这允许上下文向量在时间窗口结束时计算一次,或者以更快的速度递归计算,其中上下文在内部计算和更新,并在需要控制命令时映射到潜在向量。有关eVAE训练、计算工作量等的更多详细信息,请参见附录A和C。

    4 Event-based Reinforcement Learning

      接下来,我们专注于将基于事件的表示用于导航/规划目的。虽然一种直接的方法是将感知特征与动作一起学习,但这不能很好地扩展到事件流。由于事件相机以非常高的速率返回数据,依赖缓慢且稀疏的奖励以端到端的方式学习特征将是一个劣势。最近的研究表明,一般来说,将感知和策略网络解耦并使用中间表征可以实现更快的训练、更高的性能和泛化能力[42]。我们将这种方法应用于事件相机,并提出在反应式导航框架中使用eVAE表征。我们将我们的任务定义为四旋翼无人机的防撞:在模拟中,预计无人机将通过障碍路线从起始区域导航到目标区域,同时避免与任何障碍物发生碰撞。无论无人机或障碍物的全局位置如何,无人机都应向特定方向移动,使其能够在无碰撞区域继续飞行,并重复此行为直到无人机达到其目标状态。因此,导航和避障构成了一个序列决策问题,我们通过强化学习来解决这个问题。

    4.1 Background

      我们为反应式导航任务遵循传统的RL问题公式。当四旋翼飞行器在环境中导航并获取事件相机数据时,我们将相机输出的序列通过eVAE的编码器,并将输出的潜在向量 z 视为世界状态的观察值,使得zt = O(·|st)。强化学习方法的目标是学习一个好的策略πθ(a|z)。

      我们使用近端策略优化(PPO)[43]算法训练我们的策略。PPO是一种基于策略的策略梯度方法,一类通常寻求计算策略梯度的估计量并在网络权重上使用随机梯度上升算法的方法。PPO的核心原则是"裁剪"策略更新的范围,以避免策略发生灾难性的大变化。在时间 t,对于优势函数 At 和新旧策略下给定的概率比率 rt,PPO为估计器求解修改后的目标函数,可以写成:

    4.2 Implementation

      我们在高保真四旋翼模拟器AirSim [44]中创建了一个避障场景,其中假设四旋翼无人机配备了前置事件相机。我们使用事件模拟器使用对数图像差异事件生成模型模拟事件。要在一段时间内生成事件,必须首先捕获两个图像并计算差异。特别是当需要高控制频率时(即,应以高速率计算和处理事件),这会使任务的实时操作变得复杂。由于此限制,我们改为使用可步进模拟。为了模拟不同的控制频率,我们假设无人机以恒定的预定义速度移动,并根据所需频率改变动作的步长。我们假设无人机是一个能够以20 m/s的速度移动的简单模型;因此,例如,200 Hz控制的步长将为0.1 m。有关RL训练程序和环境的更多详细信息,请参见附录D。在图3中,我们展示了用于训练和测试策略的环境。为了进一步研究,我们开源了我们的表征学习和强化学习框架以及环境2

      对于评估,我们总共使用四个策略,其中两个策略使用eVAE表征和两个基准。

    • BRP-xy:通过预训练的eVAE表征学习策略,仅编码来自事件数据的XY位置。
    • BRP-full:通过预训练的eVAE表征学习策略,编码带有时间戳和极性的完整事件数据。
    • EIP:使用事件图像作为输入进行端到端CNN训练的策略(类似于[39, 40])
    • EIVAE:通过使用事件图像和CNN主干训练的预训练VAE学习策略。

    2 我们的代码和环境可以在https://github.com/microsoft/event-vae-rl中找到

    5 Results and Discussion

    5.1 Representation Learning

      我们的第一组实验旨在验证从事件序列编码的压缩表征的学习,并分析eVAE的上下文捕获能力。为了训练eVAE,我们通过AirSim的事件模拟器在名为poles、cones和gates(无人机赛车门)的三个环境中模拟事件数据,每个环境都表示其中感兴趣的对象。有关这些环境的更多详细信息,请参见附录B。假设模拟事件相机的分辨率为64 × 64,并且数据是通过在对象周围2D导航来收集的。

    Qualitative performance: 图4a显示了eVAE在从事件字节流中学习上下文时的一般性能。从重建中,我们观察到eVAE潜在空间能够对输入字节流的潜在本质进行编码:对象的位置、极性模式和有关发放时间的信息(原始/重建中较亮的像素表示最近的发放)被捕获。我们注意到,通过对极性排列进行编码,潜在空间隐含地捕捉了运动方向,在这种情况下,这是由于我们假设环境是静态的车辆的自我运动。在附录F中,我们通过定性比较表明,我们提出的时间嵌入比[27]中为事件数据提出的时间编码方法能带来更好的表征学习。

    Invariance to sparsity: eVAE 的一个关键特性是它可以泛化到不同长度的事件序列,因为网络输入端的事件数量可能会有很大差异。在图4b中,我们展示了解码图像的比较,当eVAE被赋予不同长度的序列时,从相同的时间戳开始。一旦看到与空间排列匹配的最小数量的事件,eVAE就能迅速将对象表示为"门",并且随着更多事件的积累,这种对潜在空间的投影保持不变。由于eVAE对从流中提取的上下文进行操作,因此即使是短序列也会根据事件的位置映射到潜在空间的信息部分。我们将此与使用CNN编码器(图4c)在事件图像上训练的VAE进行比较,其重建质量随着序列长度的减少而降低,表明CNN在处理稀疏图像方面存在困难。

    Generalization: 这种上下文捕获能力还扩展到看不见的障碍物,突出了使用低级事件数据的优势。在图4e中,我们展示了在极点数据上训练的eVAE样本,试图解码来自锥体环境的数据,反之亦然。主要环境特征(物体的位置、极性等)仍由潜在向量捕获,而解码后的图像映射到eVAE在训练期间看到的物体。这在eVAE中创造了一定程度的鲁棒性,专门用于反应式导航:目标是避开障碍物,无论它们的形状/外观如何。我们在后面的部分中表明,这允许策略在完全不同的障碍外观上工作,而无需重新训练策略。

    Smoothness of latent space: 由于eVAE将VAE的固有流形平滑优势与高频输入数据相结合,我们观察到平滑在潜在空间内自动出现,因为类似的环境因素映射到相同的潜在变量值。我们在图4d中展示了一个示例,其中我们采用了在门环境上训练的表征,其中包含一组无人机赛车门,并在无人机在收集事件观察的同时通过门导航时观察潜在向量。当无人机执行这组动作时,我们看到eVAE编码的表征也显示出一定数量的结构。这样,来自事件数据的状态信息可以潜在地投影到近似局部线性的潜在空间中,这已被证明有利于高速优化控制[45]。

    5.2 Reinforcement Learning for Obstacle Avoidance

    Policy training and control performance: 接下来,我们评估在强化学习框架中使用这些预训练表示作为观察结果以避免碰撞。

      考虑到基于字节流的策略正在结构良好的低维表征上进行训练,我们观察到训练过程中的性能有所提高。图5a中可以看到前500000个时间步骤的训练奖励比较,其中字节流表征策略(BRP)训练的样本复杂度低于事件图像策略(EIP)或RGB图像。我们还发现EIVAE策略导致更差的性能,我们假设这是由于它对改变序列长度(例如非常稀疏的图像)的泛化能力较低,这导致潜在表征对于太短或太长的序列变化很大,使得学习相应的动作变得更加困难。

      鉴于事件相机的高数据速率,可以以比标准RGB摄像机图像更高的频率控制车辆。我们进行了一项实验,其中为无人机模拟了不同的控制频率(如第4节所述改变步长),并测试经过训练的BRP和EIP策略。由于传统CMOS相机的输出数据通常在30-60 Hz左右,我们选择45 Hz作为测试的最小值,400 Hz(四旋翼的电机级控制频率)作为最大值。结果在图5b中显示为在两种环境中超过40次试验的成功百分比,成功定义为无人机是否在没有碰撞的情况下通过100 m长的障碍路线。我们观察到所有模式在45 Hz下的成功率都很低,这表明在人口稠密的障碍路线中控制缓慢的缺点。在更高的控制频率下,相机的运动以及随后的事件数量往往会更小。即使在这些情况下,类似于图4b中的观察,提取潜在表征也可以使BRP准确,在甚至400 Hz的模拟数据速率下保持高策略成功率。直觉上,能够更快地感知和控制也意味着即使在偶尔出现不良动作的情况下,智能体也有足够的机会恢复。相比之下,我们注意到EIP在较高控制频率下的准确性下降,因为事件图像变得更加稀疏,这可能对CNN造成问题。

    Robustness to environmental changes: 在反应式导航的背景下,我们的想法是能够避开任何障碍,而不管形状、外观、纹理等特征如何。通过BRP,我们观察到eVAE表征的一个关键优势,即泛化能力。首先,我们评估将在极地环境中训练的策略转移到看不见的环境时的性能:一个涉及障碍物纹理的变化,另一个涉及形状的变化(图3)。从图5c的结果中,我们看到EIP在它训练的环境中表现出良好的性能,但由于完全不同的障碍物外观,在应用于其他环境时失败。然而,如第5.1节所示,eVAE为潜在空间投影带来了一定程度的不变性,因此两个BRP的性能都优于具有不同纹理/形状障碍物的EIP。我们通过在测试设置下运行20次策略试验来分析这一点,并比较无碰撞行驶距离的均值和标准差。在附录F中,我们展示了一个额外的实验,在一个更复杂的分布外环境中,障碍物具有不同的形状和纹理,包含移动纹理,其中BRP仍然保持更好的性能。

    Robustness to camera parameters: 同样,我们检查了事件相机传感器参数对策略性能的影响。例如,在图5d中,我们检查了事件阈值的影响:该参数决定了触发事件的强度变化水平。因此,阈值较低意味着会触发大量事件,从而使相机对运动更敏感。当使用不同的相机阈值进行测试时,会导致序列中细节量的变化,BRP的性能优于EIP。eVAE为这些冗余/不必要的数据提供了一定程度的不变性,而端到端CNN策略则不然。

      我们还观察到在事件数据中引起稀疏的情况下有利于策略的字节流表征。为此,我们手动"关闭",即跳过事件数据中的某些像素位置。图5e显示,即使在事件数据稀疏50%的情况下,字节流表征也有助于策略保持准确性。最后,事件相机也容易出现背景活动(BA)[46],即在没有真正的强度变化时触发事件。为了模拟这一点,我们将随机事件添加到序列中。我们观察到BRP仍然优于EIP (图5f),但我们注意到BRP对此类噪声比诱导稀疏更敏感。在BA噪声的情况下,BRP-full表现出的性能比BRP-xy低,可能是由于寄生极性。

    6 Conclusions

      基于事件的相机是一种具有快速数据生成速率的低级模态,是高速反应行为的理想选择。我们没有将事件数据视为图像,而是提出了一种事件变分自动编码器,它将时空特征计算框架与变分自动编码器的固有优势相结合,能够直接从异步事件流中学习平滑且一致的表征。通过在用于导航的强化学习流水线中应用这些表征,我们表明这些表征可以有效地从快速流中编码环境上下文,并且可以从极性等中提取对象位置、时间和运动信息,以一种泛化不同序列长度和不同对象类型,优于基于事件图像的方法。

    Limitations and FutureWork. 我们将这项工作作为对连接事件相机的表征和强化学习的初步探索。我们尚未在大型且多样化的数据集上测试这种方法,可能需要进行一些更改以适应这些表征以进行更一般的复杂场景表征学习。由于事件模拟的计算问题,我们的RL问题还侧重于更简单的设置,因为复杂的场景会在模拟器中产生更多的渲染开销。未来工作的有趣途径可能是利用GPU进行事件模拟,将这些方法应用于更艰巨的任务,如无人机竞赛,以及研究异步卷积网络[24]用于表征学习的最新进展。

    Broader Impact. 一方面,事件相机为快速感知-动作循环带来了很多潜力,例如,将高速反应控制与慢速审慎感知(快速思考和慢速思考[47])相结合,以获得更好的机器人智能。事件数据的低级性质也使其成为视觉的一个普遍有趣的候选者,特别是用于诱导形状偏差而不是CNN [48]中常见的纹理偏差,以及保护隐私的视觉。另一方面,用于监视的事件相机或配备用于不道德应用的无人机可能会被滥用,这需要仔细考虑。

  • 相关阅读:
    为何url地址不是直接发送到服务器,而是被编码后再发送
    http请求分析
    Nginx+Php不支持并发,导致curl请求卡死(Window环境)
    Vue开发调试神器 vue-devtools
    什么是闭包?闭包的优缺点?
    Nginx 504 Gateway Time-out分析及解决方法
    HTTP请求8种方法
    MySQL查询缓存总结
    MySQL单表多次查询和多表联合查询,哪个效率高?
    分布式系统一致性问题解决实战
  • 原文地址:https://www.cnblogs.com/lucifer1997/p/15563780.html
Copyright © 2011-2022 走看看