标题:A SURVEY OF LEARNING FROM DEMONSTRATION USED IN ROBOTICS
从机器人技术中使用的演示中学习的调查
0. 摘要
从演示中学习(LfD)已经成为机器人领域重要且不断增长的需求。在过去的几十年里,人们提出并发展了各种通过机器人演示来学习的技术。本文综述了不同形式的LfD。本文介绍了在机器人领域中实现LfD技术的各种技术的综合综述。这项调查是基于以往研究人员的实际工作。本文着重介绍了不同类型的LfD,以及这些类型在机器人中的应用。通过比较不同类型的lfd的优缺点,得出结论。本研究将有助于为新的研究人员理解机器人中LfD的概念提供基础。
正文
在过去的几十年里,机器人一直吸引着人们。机器人越来越多地应用在日常生活中。人们一直梦想拥有机器伙伴,一起玩游戏,一起解决世界上的问题。因此,在不久的将来,机器人有望在世界各地帮助人类,包括为家庭和其他具有多种多样和不断变化的需求的用户服务。然而,在这些高级概念成为现实之前,更基本但至少同样具有挑战性的任务,即教会机器人掌握它们的身体和环境,应该得到解决。到目前为止,机器人(更准确地说,是机器手臂)在高度结构化的环境中表现良好,比如工厂,在这些环境中,每个用于操作的对象目标总是在相同的预定义位置上,并且要执行固定的运动命令序列。然而,如果有人改变目标的位置,机器人不能像人类一样健壮地适应。为了让机器人在非结构化环境中发挥真正有效的作用,需要改进机器人理解环境和操作环境中的物体的方式。
在过去的几年里,机器人已经从简单的预编程机器转变为高度灵活和复杂的系统。因此,这种机器人的编程非常困难,需要其他人机界面[Brenna D, 2008]。近年来,从演示中学习变得特别流行,从而改进系统,同时需要更少的专家调优和交互。由于机器人具有高度的灵活性和复杂性,需要较少的专家调整和交互,且对新环境和新任务的适应能力需要提高,因此产生了从演示学习(LfD)。
从演示中学习(LfD)或通过演示编程(PbD)是一种使机器人自主执行任务的技术。在LfD中,减少了手工机器人编程的负担。在手动编程中,用户必须分析地分解并手动编程一个所需的行为,但在LfD pbd中,机器人的行为来自观察人类的行为。LfD是每个人从出生就在做的事情。家长或老师在学校里只给孩子示范,然后孩子学会模仿示范。LfD中也使用了相同的模拟方法。
机器人LfD PbDis的主要原理是无需编程即可学习新的任务。在LfD中,任务是从教师提供的示例或演示中学习的。演示机器人编程(PbD)旨在让用户通过演示所需的行为来为通用机器人编程新功能。给定一组演示,机器人建立演示动作的模型,这使它能够在新情况下成功地重现动作。
LfD 是人类与机器人交互的一种非常自然的方式,并将成为未来服务机器人的重要组成部分 [Brenna D, 2008]。 从演示中学习提出了一种针对不同非平凡行为对机器人进行编程的替代方法 [Monica Nicolette Nicolescu,2003]。其目的是使机器人功能更容易扩展并适应新情况,即使是没有编程能力的用户也是如此。
机器人示范学习始于20世纪80年代。LfD的灵感来自心理学和生物学的概念。一些LfDs采用计算神经科学方法并使用神经模型。另一些人则追求更认知的科学方法,在动物身上建立模仿学习的概念模型。在演示学习方法中,参数和首选项被自动调优,以再现专家演示的行为。
强化学习是机器人技术中适应性最强、目前最常用的一种学习方式。强化学习就是从试错中学习。
本文综述了不同类型的lfd。
在进一步进行之前,我们列出了演示或教学技术的类型远程操作,阴影,传感器对教师或外部观察;分类取决于演示过程中执行任务的人(人类或机器人)以及关于演示者行动的信息。在远程操作过程中,机器人由教师操作,同时通过它自己的传感器进行记录。在跟踪过程中,机器人平台会模仿老师演示的动作,并通过自身的传感器进行记录。教师传感器是一种模仿技术,它利用位于执行主体上的传感器来记录教师的执行。外部观察是一种模仿技术,它使用位于执行体外部的传感器来记录执行。这些传感器可能位于也可能不位于机器人学习器上[Brenna D, 2008]。
LEARNING FROM DEMONSTRATION
机器人通过三个不同层次的演示来学习执行任务:模仿、仿真和模仿。
模仿是模仿演示者的身体动作。模仿必须不涉及观察者对动作目的的概念化。因此,在一个新的环境中,仅仅通过模仿是不可能完成任务的。
在仿真学习中,观察者复制演示者动作的预期结果。
模仿学习是一种以目标为导向的模仿观察到的动作的形式。在模仿学习中,观察者被假定认识到演示者的动作带来了什么形式,并使用它来完成任务[BarisAkgun, 2010]。
Types of Learning from Demonstration
机器人可以通过两种方式学习任务,一种是模仿,另一种是感觉-计划-行动或远程操作。模仿是通过复制用户的行为,他人是感知用户的意图,然后采取相应的行动。
Imitation Learning from Demonstration
模仿学习也称为观察学习。Mitchell(1987)给出了模仿的正式定义:…当某物C(复制物)被某个有机体和/或机器生产出来时,模仿就发生了,其中:C与另一物M(模型)相似;生产C需要M注册;而C的设计与m相似[Monica Nicolette Nicolescu, 2003]。
模仿学习是一种获取通用知识的方法,用于指导机器人的控制回路。模仿学习是在不同的语境中适应和重用获得的知识的能力[YiannisDemiris, 2007]。模仿学习教机器人如何排序运动原语,以解决一个复杂的任务[Kathrin Gräve, 2013]。基于模仿学习的运动复制。在学习演示参数和偏好自动调整,以再现教师演示的行为。
在机器人技术领域中,模仿通常表现为对教师活动的被动观察和主动观察。在被动模仿中,机器人可以通过测试与这些技能相关联的模型对教师轨迹的预测来检测教师的动作是否与它现有的技能相匹配。如果教师执行一个不在机器人剧目中的动作,则采用被动模仿的方法来获得新演示的行为[Monica Nicolette Nicolescu, 2003]。从演示中主动学习是指学习系统/机器人要求教师提供具体的演示。在这里,学习者负责选择训练数据或有效地选择一个好的训练集。主动学习有助于确保每个演示最大限度地有用,而不是冗余[David Silver, 2012]。
Teleoperation Learning from Demonstration
遥操作LfD是一种经验学习。教师让机器人通过它自己的传感器来执行和体验要学习的任务。使用这种技术的好处是,机器人不需要解释不同老师的动作,也不需要把不同老师的动作和自己的联系起来。获得的感觉信息是基于机器人自身结构和感觉运动技能,避免了通过人体运动捕捉等方法学习时模型不匹配的问题[Monica Nicolette Nicolescu, 2003]。远程操作是通过操纵杆或其他远程控制设备完成的,包括触觉设备。
远程操作演示是通过用遥控器手动引导机器人或由演示者通过记录运动的所谓运动捕捉系统完成任务,而无需对机器人进行任何干预。用运动捕捉装置或传感器直接记录轨迹,然后回放给机器人似乎是获得演示运动的一种简单方法。远程操作需要一个接口来直接控制所有的自由度。遥操作为演示学习中信息传递提供了最直接的方法。然而,遥操作要求操作机器人是可管理的,因此,不是所有的系统都适合这种技术。
远程操作的优势在于它允许远距离训练机器人。由于教师不再需要靠近机器人,它很适合教授导航和移动模式。
REINFORCEMENT LEARNING
强化学习就是从试错中学习。它允许机器和软件代理在特定的上下文中自动确定理想的行为,以最大化其性能。简单的奖励反馈是代理学习其行为所必需的;这就是所谓的强化信号。与机器学习的大多数形式一样,学习者没有被告知应该采取哪些行动,而是必须通过尝试发现哪些行动能产生最大的回报。这种行为可以一劳永逸地学会,也可以随着时间的推移不断适应。
强化学习(RL)使机器人能够通过与环境的试错交互来自主发现最佳行为。强化学习为机器人提供了一个框架和一套工具,用于设计复杂和难以工程的行为[Jens Kober, 2013]。
机器人通过尝试动作来学习控制代理,并使用获得的反馈(奖励)来加强(强化)代理的行为。代理通过其(虚拟)传感器和效应器与环境交互。
奖励功能决定了哪个代理的行为是最理想的。代理人与环境相互作用,可能得到奖励或惩罚。
强化学习的目标是发现一个最优策略,将状态(或观察)映射到行动,从而使与累积预期回报相对应的预期回报最大化。为了获得大量奖励,强化学习主体必须更倾向于它过去尝试过并发现在产生奖励方面有效的行为。
所有的强化学习主体都有明确的目标,能够感知他们所处环境的方方面面,并能够选择行动来影响他们的环境。在实际应用中,获取样本进行强化学习的代价往往很高。
TEACHING TECHNIQUES
瞬间移动,阴影,传感器对教师或外部观察是各种教学技术。遥操作教学法在机器人教学中得到了广泛的应用。遥操作教学包括远程教学和动觉教学。
远程教学
远程教学是通过用遥控器手动引导机器人进行的,或者由一个演示者通过一个所谓的运动捕捉系统来完成任务,而不用对机器人进行任何干预,这个系统记录了机器人的运动。
机器人远程教学是基于网络和仿真工具的。机器人远程教学的基本反馈是视觉反馈。远程操作可以使用操纵杆或其他远程控制设备,包括触觉设备。远程操作的主要缺点是教师经常需要培训来学习使用远程控制设备。此外,对于高自由度机器人,遥操作界面可能是高度复杂的。
Kinesthetic teaching
在动觉上,教师触摸机器人来引导它的运动。在动觉式教学中,机器人不是主动控制的,而是通过物理运动机器人的各个部分(如:关节)来实现所需的运动。手臂、关节、四肢等)在这里,用户用身体引导机器人完成任务。在动觉教学中,用户通过物理操作机器人的末端执行器来与机器人交互。
动觉教学要求机器人和用户在同一位置,用户可以操作机器人。如果机器人距离较远,机器人或环境危险,或机器人的规模不允许,这可能是不可能的。动觉更容易使用,并导致更多成功的演示。动觉模式更舒适,更适合提供准确的演示[BarisAkgun, 2010]。
远程教学需要一个直接控制所有自由度的界面,而动觉教学需要(被动或主动)对人类触摸的反应。
Sensors on teacher
对于人类来说,教另一个人表演动作的一种自然方式是通过他/她自己来演示动作。将新技能传授给机器人的一种有效方式是赋予机器人通过模仿学习的能力,并将学习到的技能推广到不同的情境中。当观察人类演示执行动作时,机器人需要确定哪些部分的完整运动的繁殖能力至关重要,哪些可能复制不同,例如,通过偏离最初的观察到的手势或通过使用不同的方式来完成任务的需求。
跟踪
跟踪是一种演示技术,在教师执行任务时,机器人学习者使用自己的传感器记录执行过程,同时试图匹配或模仿教师的动作。跟踪技术需要一个额外的处理组件,使学习者模仿教师[Brenna D. Argall, 2008]。
结论
本文综述了机器人技术中演示学习的主要方法。本文简要介绍了lfd的方法和类型。这些是所采用的基本方法,但在过去的几十年里,研究人员开发并实现了这些所讨论的方法的组合。
虽然LfD已被证明是一个成功的开发工具,但在优化LfD使用方面仍有许多开放的研究领域。在这个调查中,我们讨论了独立机器人的LfD。从演示中学习的新方法为提高机器人的性能带来了很多希望。LfD可以扩展到多机器人领域。
随着机器人领域的不断发展,LfD也在快速发展。技术的变化和大量的研究正在机器人,看到了一个光明的未来。