zoukankan      html  css  js  c++  java
  • 斯坦福黑科技打造新型交互机器人:看视频一学就会!

      现代机器人技术在运动类任务上的表现已经很惊艳,比如搬运重物、雪地行走等,但对于人和目标的交互式任务,比如餐桌摆盘、装饰房间等多半还无能为力。近日,斯坦福大学研究人员就试图通过大型视频集来识别、表示和生成人与物体间的真实交互。

      近几年来,虚拟现实(VR)和机器人平台技术已经取得了巨大进步。这些平台现在可以让我们体验更加身临其境的虚拟世界,让机器人帮我们完成具有挑战性的运动类任务,例如在雪中行走,搬运重物等。那么,我们能否很快就能拥有可以会摆放餐桌、会做菜的机器人了呢?

      很遗憾,这个目标现在离我们还有点远。

      在日常生活中人与物体发生相互作用的一些例子

      为什么?要弄清这个问题,需要从日常人类生活中的相互作用的多样性说起。我们几乎无时无刻不在进行活动,这些活动中包括简单的动作,比如吃水果,或更复杂一些的,比如做饭。这些活动中都会发生人和周围事物的相互作用,这个过程是多步的,会受到物理学、人类目标,日常习惯和生物力学的支配。

      为了开发更具动态性的虚拟世界和更智能的机器人,我们需要教机器捕获,理解和复制这些交互行为。我们可以以大型视频集(如YouTube,Netflix,Facebook)的形式,广泛提供了解这些交互所需的信息。

      本文将描述从视频中学习人与对象的多级交互活动所采取的一些初级步骤。主要讨论生成适用于VR/ AR技术的人与对象交互动画,研究如何使机器人能巧妙地对用户行为和交互作出反应。

      问题和挑战

      我们将研究重点放在人类进行的各种交互活动的子集上,常见的如家用桌上或办公室中的人与物体的交互,比如用手拿取桌子上的目标。下图中类似的桌面交互活动占到我们日常行为中的很大一部分,但由于手-物体的配置空间很大,因此这些交互活动的模式和特征难以捕获。

      上图是我们收集的视频中的一些桌面交互活动实例。我们收集了75个视频(20个验证视频)。

      我们的目标是通过学习大型视频集来识别、表示和生成这些真实的交互。这必须要解决具有挑战性的基于视觉的识别任务,产生与当前和过去的环境状态一致、时间空间一致的多步交互。这些交互还应符合基本物理定律(比如不能穿透物体),人类习惯(比如不能端着带杯柄的咖啡杯),并受到人体生物力学特征的限制(比如够不到太远的物体)。

      动作划分(Action Plots)表示

      人类活动的空间及其支持的相互作用存在无数可能。与对象的交互会导致连续的时空上的转换,使交互模式难以形式化。不过,这些复杂的相互作用可以按照顺序进行建模,即总结出从给定状态到后续状态的变化概率。

      为了在这个顺序模型中进行参数化表示,我们引入了一个称为动作划分(action plot)的表示,负责表示由手完成的、导致场景中的状态发生改变的一系列动作。每个动作定义交互中的唯一阶段,并表示为动作元组,每个动作元组由动作标签、持续时间、参与对象、结束状态和位置组成。这种离散化处理方式更加突出了人与物体相互作用的组合性质,同时抽象出时空变换的复杂度。

      从视频中识别人与物体的交互

      学习生成包含多步骤交互行为的动作划分,捕捉现实世界中人和物体交互行为的物理约束和因果关系。我们的目标是从人类场景交互的视频集合中进行自动学习,因为这是一种快速,廉价、多功能的设置。为了完全表示动作划分,需要首先获取有关对象的实例、类别和位置,然后确定手的位置,最后进行动作检测和分割,这些信息都要从视频中提取,难度很大。

      我们通过自动化的pipeline,利用计算机视觉领域的最新进展,在动作划分任务上实现了最高的精度。

      对象和实例跟踪:动作划分中的一个重要组成部分是对象类别、实例、位置和状态。我们使用基于更快的R-CNN架构的物体检测器来在每帧图像中找到候选边界框和标签和对象位置,通过时间滤波减少检测抖动。为了推断对象的状态,在每个边界框的内容上训练分类器郑州不孕不育医院:http://wapyyk.39.net/zz3/zonghe/1d427.html郑州不孕不育医院哪家好:http://wapyyk.39.net/zz3/zonghe/1d427.html

      手部检测:由于大多数交互涉及手部,因此图像处理目的是推断出手在操纵哪些物体,以及手部遮挡时的物体位置。我们使用完全卷积神经网络(FCN)架构来检测手部动作。该网络使用来自GTEA数据集中的手工掩模的数据进行训练,并根据我们视频集的子集进行微调。通过手部检测和物体的运动方式,可以推断出手的实时状态(是空闲,还是被占用),这是一个重要的信息。

      动作划分:要为每个视频帧生成动作标签,我们需要识别所涉及的动作以及它们的开始和结束时间(即动作分段)。我们采用两阶段方法:(1)为每帧图像提取有意义的图像特征,(2)利用提取的特征对每帧的动作标签进行分类,并对动作进行分段划分。为了增加动作划分的鲁棒性,使用LSTM网络来暂时聚合信息。详细信请参阅论文。

  • 相关阅读:
    团队-科学计算器-成员简介及分工
    提交错误
    《结对-结对编项目作业名称-需求分析》
    对软件工程课程的期望
    自我介绍
    课堂作业0
    selenium+Java刷新浏览器
    不要焦虑~~
    JAVA代码实现得到指定文件夹下的文件名
    安全检测检查清单(IOS版APP)
  • 原文地址:https://www.cnblogs.com/sushine1/p/10881092.html
Copyright © 2011-2022 走看看