Learning sensorimotor control with neuromorphic sensors: Toward hyperdimensional active perception

zoukankan html css js c++ java

Learning sensorimotor control with neuromorphic sensors: Toward hyperdimensional active perception

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

SCIENCE ROBOTICS, no. 30 (2019)

Abstract

　　现代机器人技术的标志是能够将平台的感知与其运动能力直接融合——这个概念通常被称为"主动感知"。然而，我们发现动作和感知往往保持在分离的空间中，这是传统视觉基于框架并且只存在于瞬间和运动是一个连续实体的结果。这个桥梁由动态视觉传感器(DVS)跨越，这是一种可以看到运动的神经形态相机。我们提出了一种方法，通过使用超维二值向量(HBV)，将动作和感知一起编码到一个有意义的、语义上知情且一致的单一空间中。我们使用DVS进行视觉感知，并表明视觉组件可以与系统速度绑定以实现动态世界感知，这为实时导航和避障创造了机会。智能体执行的动作直接与所经历的感知绑定以形成自己的"记忆"。此外，由于HBV可以将动作和感知的整个历史(从原子序列到任意序列)编码为恒定大小的向量，因此将自联想记忆与深度学习范式相结合以进行控制。我们在四轴无人机自我运动推理任务和MVSEC(多车立体事件相机)数据集上展示了这些特性。

INTRODUCTION

　　近年来，现代人工智能(AI)和学习的局限性在大量数据集、学习架构、要解决的一般任务和数据模式中得到了彻底的探索。此外，重点正在转移到AI可以为现代机器人做些什么以及需要哪些新形式。将智能系统的不同认知模式(例如视觉、运动动作、音频和其他各种传感器)组合在一起的科学是什么？目前，关于如何可行地实现这一点还没有真正的理论，主要是因为不同学科所涉及的表示和处理或学习技术也存在很大差异。每次探索一项新任务时，科学家们倾向于从单个组件开始。

　　现代机器人技术更重要的方面之一是将智能体所经历的感官知觉与其运动能力(它可以执行的动作)相结合以促进主动感知(1, 2)，这被认为对自主性的存在至关重要 , 学习智能体体验世界并需要尽其所能与之交互(3, 4, 5)。本学科存在模态分离的问题；感知空间和动作空间主要是分开的，有一个中央学习机制来推断给定感知的动作，反之亦然。同样，各种形式的感知本身在很大程度上是单独学习或处理的，嵌入到向量表征中，并基本上连接在一起作为上述中央学习机制的输入。很明显，我们必须做得比这更好。理想情况下，当下和过去所经历的感知和行为应该会影响智能体的未来行为，甚至可能会影响其对未来感知的期望。主要关注的是如何以有效的方式将两种截然不同的动作和感知方式整合在一起。

　　我们提出从原始数据本身的整合约束开始，也就是说，从一开始，我们就要求感知和动作最终需要"绑定"在一起。为此，感知模块将通过它与控制模块或规划模块等交互。这个货币就是超维向量，一个存在于极高维空间中的向量。在此，我们主要关注超维二元向量(HBV)和促进超维主动感知(HAP)的概念。无论是图像、视频、运动序列、控制序列、概念、单词还是声音，都由相关联的HBV表示。此外，如果你是这些模态中的任何一个的序列，那么你也是由该序列的组成元素构建的等维HBV，从而与编码存在于同一空间中。最后，当一起考虑时，例如混合模式或它们的序列时，这也表现为通过将每种模式结合在一起而构建的HBV，同样具有相同的维度。积分问题现在有了新的含义——所有信息都表示为有意义构造的长二值向量。

　　尽管如何处理不同形式的数据的理念对于促进主动感知很重要，但我们还必须考虑"硬件"方面。一些传感器更适合感知我们认为适合问题的信息。经典视觉倾向于关注基于红绿蓝(RGB)光强度的相机，尽管我们发现生物有机体倾向于以非常特殊的方式解释信号。这方面的一个例子是运动。运动在经典相机和视觉技术中没有得到很好的体现——这是传统视觉基于帧并且只存在于当下的结果，而运动是一个连续的实体。所谓的神经形态相机试图捕捉这种看到运动的概念。动态视觉传感器(DVS)的最新发展以一种有趣的方式遵循这些路线，及时看到稀疏事件，而不是像素和强度。随着这种神经形态硬件的引入，我们已经准备好跨越基于帧的视觉的桥梁并开发一个概念：基于运动的视觉。基于事件的传感器提供关于场景变化的密集时间信息，允许准确、快速且稀疏地感知世界的动态方面。当涉及到动作和感知的结合时，DVS看到的快速异步事件对于促进动作是可取的。到目前为止，对于如何以常规RGB相机的方式有效地从DVS学习还没有真正的标准。这都是实验性的。

　　根据最近在该领域的描述(6)，"主动感知者知道为什么要感知，然后选择感知什么，并决定如何、何时和何地实现这种感知"。"什么"问题与场景选择和固定有关。"何时"问题与时间选择、时间瞬间和范围(历史或回合式记忆)有关。"如何"问题与机械对齐、传感器对齐和启动有关，"何地"问题与视点选择以及智能体姿势、传感器姿势和物体姿势之间的关系有关。

　　所有这些问题都可以使用我们的超维框架来解决。"什么"问题相当于从一系列注视中开发场景模型。每个注视点都以"位置"和"内容"(注视点周围窗口中的图像)为特征。如果X_i是表示注视位置的超向量，Y_i是表示X_i周围图像的超向量，那么通过将X_i绑定到Y_i并将所有注视的超向量相加，我们得到ΣX_i*Y_i，一个基于注视的场景超向量。类似地，可以使用超向量解决"何时"问题。如果V(t)和M(t)是时间 t 内动作期间的视觉和运动信号，那么对于任何 t，超向量V(t)与M(t)的结合给出了一个新的超向量，它是"立即的"。将一系列这样的时刻变成一个新的超向量会导致一个历史向量。其余问题也可以这样说：例如，对齐问题相当于不同类型的伺服，其中伺服被视为对具有目标的动作的预测。以上都是未来的研究目标。

　　在此，我们专注于一个简单的问题，这将使我们能够深入评估我们的方法。因此，我们专注于三维(3D)运动的问题。首先，我们描述了一个框架，用于将多种模态(例如感知和动作)整合到一个空间中，从而以主动感知所需的方式生成用于学习的特征。此外，我们展示了如何在这样的框架中使用DVS。我们从一些关于HBV及其功能的背景信息开始。接下来，我们描述了如何使用关于HBV的最新工作来有效地生成有意义的、语义知情的HBV，并将它们整合在一起以形成序列或数据集的表征。之后，讨论了一种编码更复杂信号(例如图像)的方法。然后我们描述了最近关于用于生成基于运动的感知的DVS的工作以及如何对其进行HBV表征。此外，我们描述了一种将动作和感知整合到单个空间中的方法，并展示了由此产生的HBV如何用作先前动作和感知的"记忆"。我们展示了HBV与基于DVS的信息一起使用的结果，以及它如何与更传统的DVS信号视觉方法进行比较，以预测速度和自我运动。最后，我们讨论了我们的结果以及如何将它们用于未来的应用程序，以进一步促进HAP的使用，并形成一条更连贯的路径，以在机器人技术中实现更好的AI。

RESULTS

　　在本节中，我们将讨论用于整合动作和感知的HAP框架的形式化，以及理解它所需的任何背景信息。然后提供实验来证明该框架的特性以及如何使用它来促进主动感知和创造记忆(使用神经形态相机)。

Properties of HBVs

Numerical values versus categorical values

Representing both numerical and categorical data in the same space

Encoding images as HBVs

　　为了能够将更复杂的结构编码为HBV，例如图像，必须注意保留像素强度和位置值的意义。如何使用我们可以编码的基本结构来做到这一点？首先，我们描述了像素强度如何用HBV表示。考虑单通道灰度图像的情况。我们在强度空间中有256个独特的值，它们彼此均匀分布。为了用向量重建它，我们首先需要256个向量，然后要求它们间隔开，使得特定强度顶点的最近邻居是现实中最接近的强度。同样，值更远的强度应该按比例具有更远的H或H_n距离。对于较小或较大强度的像素，应该找到成比例相似的距离。本质上，强度自然地被可视化为一维线，作为曲线或向量线嵌入到更高维空间中。我们可以通过取一个特定的顶点并将其连接到其他顶点来可视化这一点，要求边缘权重与均匀间隔的顶点之间的强度差异成比例地减小。应用于每个顶点，我们意识到需要一个完全连接的图(除了连接到它们自身的顶点)。因此，每个顶点都应该有一个满足强度尺度属性的向量。图2显示了这是如何在小规模上可视化的。当这个图用上一节描述的技术最小化时，结果形成一个类似于图3所示的距离矩阵。正如我们所见，距离远离对角线入口增加，类似于强度在一个单通道中所做的，从特定强度值的角度来看。

　　通过强度的表示，我们现在可以专注于表示位置。置换包含HBV序列的位置语义；特定的置换附加到单一数据类型的序列。这是在单向意义上通过序列的运动。对于图像等二维数据，我们需要进行两次置换操作，一次用于行位置，一次用于列位置。对于每个位置，我们适当地置换强度表示。考虑单个这样的像素；在与其他像素进行异或运算之前，我们可以通过置换将其放置在图像中的适当位置——其概念如图4所示。作为一个小例子，考虑一个3 x 3的图像 I。让I_ij是在第 i 行和第 j 列的像素强度表示。然后，图像的HBV表示构造如下：

　　这个简单但强大的公式使我们能够以有意义的方式对任意维度的图像进行编码。类似于它们在序列中的作用，由此产生的HBV的置换将相应地在空间中移动图像，并且可以通过与要从完整图像中删除和添加到完整图像的部分进行异或来删除或连接图像的整个部分，如图5所示。

Creating memories with HBVs

　　由于HBV能够与其他HBV结合以编码越来越多的信息，但在相同的向量长度下，我们有一种自然的方法来创建具有语义意义和知情的记忆。例如，可以通过与每张图像的HBV形成数据记录来"记住"一系列图像，其中采用特定向量来表示图像的时间位置。当呈现特定图像时，可以通过简单地将内存与图像进行异或来检查它是否存在于内存中。结果的最近邻将是图像的时间位置。同样，当对特定位置的图像感兴趣时，相同的过程将揭示最近的匹配图像是什么。

Using neuromorphic visual information

Learning from event stream classically versus with HBVs

Perception to action binding with HBVs

Information capacity of HBVs

Theoretical limits on capacity of HBVs

Sensorimotor representation through binding visual and motor information

DISCUSSION

　　我们的结果显示了在机器学习和人工智能中使用HBV的前景。它提供了一种替代方法来规范学习系统的输入应该是什么样子，并且能够与数据模态无关。我们已经证明，学习系统仍然可以从HBV中学习，尽管它们本质上在其编码中隐含了原始数据。我们推测，这是可能的原因是HBV中1和0的分布具有非常明显的统计特性，学习系统仍然可以从中学习。此外，如我们的结果所示，HBV可用于存储各种记忆，包括动作和感知。此外，该系统对可以编码多少数据同时仍然具有统计上显著的汉明距的容忍度令人印象深刻。此外，将其与神经形态DVS相机相结合表明，甚至可以使用非标准数据表征(例如事件云)来实现超维感知。

　　我们认为，必须对HBV的基于运动的视觉领域以及在常规视觉中使用的潜力进行进一步调查。必须进一步研究将多种形式的感知与神经形态传感器和经典视觉相结合的能力。使用HBV的主要弱点之一在于要表示的数据密度。例如，由于传统的基于帧的RGB相机提供的信息密度，传统视觉远比HBV更适合传统视觉技术。CNN的流行及其学习N维数据的能力也是HBV的另一个弱点，HBV还没有这样的公式来在基于窗口的卷积提供的方法中处理数据。理论上可以模仿基于CNN窗口的HBV处理；然而，似乎需要发现适当的神经网络/替代学习结构才能充分利用HBV的力量。这些领域将是HBV早期领域未来工作的主题。

MATERIALS AND METHODS

　　为了执行我们的实验，我们为Python开发了一个开源库，用于使用长二值向量(pyhdc)进行加速操作。该库支持高达~8000位的向量长度，并且能够在现代笔记本电脑上以单线程每秒执行1.4 × 10⁵次置换和每秒3.0 × 10^-7次XOR。该代码可在线获取：https://github.com/ncos/pyhdc。

　　在我们的第一个实验中，我们使用了具有类似于(15)架构的CNN，但将输出层替换为三节点全连接层而不是一个，以解决速度向量中的三个维度。与HBV一起使用的全连接神经网络在其密集层中有8000、4000、1000、200、50和10个节点。对于这两个网络，L2范数用作损失函数，Adam优化器设置为0.001的学习率。

　　在所有实验中，我们使用了利用DAVIS 346b和DAVIS 240b传感器(事件分辨率分别为346 by 260和240 by 180)收集的数据集。仅使用传感器的DVS部分，而忽略相应的灰度图像。为了记录可靠且真实的数据集，我们使用了一个定制的Qualcomm Flight四旋翼平台，该平台配备了其中一个摄像头(图S6)。该平台通过VICON运动捕捉系统在室内进行跟踪，能够以200 Hz的更新速率提供高达0.3毫米的定位分辨率。我们的实验使用了大约17000帧数据集，其中10%用于验证。

SUPPLEMENTARY MATERIALS

robotics.sciencemag.org/cgi/content/full/4/30/eaaw6736/DC1
Text S1. MVSEC experimental details.
Fig. S1. Theoretical likelihood of a consensus term to be 1.
Fig. S2. Results for HBVs on outdoor day 2 in the MVSEC dataset.
Fig. S3. Results for HBVs on outdoor night 1 in the MVSEC dataset.
Fig. S4. Results for HBVs on outdoor night 2 in the MVSEC dataset.
Fig. S5. Results for HBVs on outdoor night 3 in the MVSEC dataset.
Fig. S6. Drone used in dataset collection.
Fig. S7. Memorization pipeline.
Fig. S8. Memory retrieval pipeline.
Movie S1. Experimental drone and dataset.
Movie S2. HBV representations for intensities.
Movie S3. Encoding and memory binding.
Movie S4. Tension relaxation.
Movie S5. Outdoor day 1.
Movie S6. Outdoor day 2.
Movie S7. Outdoor night 1.
Movie S8. Outdoor night 2.
Movie S9. Outdoor night 3.

查看全文

相关阅读:
【bzoj2500】幸福的道路树形dp+单调队列
 【ARC069F】Flags 2-sat+线段树优化建图+二分
 【bzoj2437】[Noi2011]兔兔与蛋蛋二分图最大匹配+博弈论
 剑指offer——树的子结构
 剑指offer——反转链表
 腾讯算法岗面试算法题——计数排序
 作业帮面试题
 剑指offer——重建二叉树
 剑指offer——二维数组中的查找
 删除链表中重复的结点

原文地址：https://www.cnblogs.com/lucifer1997/p/15024456.html