机器人学习操纵综述:挑战,表示形式和算法
1.介绍
因此,研究人员专注于机器人应如何学习操纵周围世界的问题。 这项研究的范围很广,从学习个人操作技巧到人类演示,再到学习适用于高级计划的操作任务的抽象描述,再到通过与对象交互来发现对象的功能,以及介于两者之间的许多目标。 我们自己的工作中的一些示例如图2所示。
我们在本文中的目标是双重的。 首先,我们描述了机器人操纵学习问题的形式化问题,该问题将现有研究综合到一个统一的框架中。 第二,我们旨在描述迄今为止在机器人学习中进行的研究的代表性子集。 通过这样做,我们强调了这些方法已应用于操纵学习问题的多样性,并确定了仍然存在的许多研究机会和挑战。
我们的审查结构如下。 首先,我们调查了通过操纵学习提供的基本结构的关键概念(第2节)。 第3节对操作学习任务进行了广泛的形式化,其中涵盖了大多数操作问题,但包含了该问题必不可少的结构。
审查的其余部分涵盖了几个广泛的技术挑战。 第四部分考虑了学习定义状态空间的问题,在该状态空间中,机器人必须发现相关状态特征和环境中附着于每个对象的自由度。 第5节介绍了学习环境转换模型的方法,该模型描述了机器人的动作如何影响任务状态。 第6节着重于机器人如何学习直接实现某些目标的电机控制策略,通常是通过强化学习(Sutton和Barto,1998),将其作为任务的完整解决方案或该解决方案的组成部分。 第7节介绍了通过学习运动技能可以成功执行的情况的描述以及状态变化模型来表征运动技能的方法。 最后,第8节概述了学习过程和状态抽象的方法,这些方法可以实现有效的高层学习,计划和转移。
2.学习操纵的共同概念
操纵任务具有重要的内部结构,利用这种结构可能证明是有效进行操纵学习的关键。 因此,在形式化操纵学习问题之前,我们将首先讨论这种内部结构。
2.1作为物理系统的操纵
每次操纵都需要一个物理机器人与其环境进行交互。 结果,所有操作都受物理定律及其施加的结构的约束。 这种相当明显的陈述对操纵学习算法具有广泛的影响。 基本的物理概念(例如,不同的对象不能占据相同的空间,而重力将取决于质量的力施加到对象上)为操作任务提供了丰富的先验知识。 诸如不可逆过程和物体质量之类的物理学概念是如此基础,以至于我们通常将其视为理所当然。 但是,这些概念提供了宝贵的先验知识和结构,这些知识和结构可以被学习算法利用,从而使学习操作技能易于处理。 在本节其余部分中讨论的大多数概念在某种程度上是操纵是物理过程的结果。
2.2欠驱动,非完整约束和操纵方式
操纵任务几乎总是被表征为驱动不足的系统。 即使机器人已完全启动,环境中的无生命物体也会为状态空间贡献一组独立的状态变量,但不会增加机器人的动作空间。 致动器数量与DoF数量之间的差异意味着系统驱动不足。 要更改对象的状态,机器人必须首先进入一种可以更改对象状态的状态,然后进行所需的操作,例如与对象接触,然后推动对象。 这些要求可以表示为一组非完整约束,这些约束定义了机器人根据与环境的不同交互方式如何在整个状态空间中移动。
操纵任务可以建模为混合系统,其中系统动态在多个离散动态模式中的每个内是连续的。 因此,动力学是分段连续的。 在操纵任务中,模式开关通常对应于接触的建立或断开,不同的接触施加相应的约束并允许机器人与各种对象进行交互。 模式之间转换的条件通常对应于子目标或障碍物,具体取决于机器人应更改或保持恒定的状态变量。 不幸的是,模式也使操纵任务本来就不连续。 因此,状态的微小变化会对操纵的结果产生重大影响。 因此,对于意外的和不希望的模式转换,机器人监视其技能执行很重要。
2.3互动感知与验证
机器人可以通过观察不同操作动作的结果来感知某些潜在对象的属性。此过程称为交互感知。物体的许多属性,例如材料或运动学约束,只能通过交互式感知来可靠地确定。如果任务的目标是更改潜在属性,则机器人将需要使用交互式感知来验证操作是否成功,例如拉动门以确保将其锁定。即使可以使用被动感知来估计属性的值,但交互式感知通常可以提供更准确的估计。在某些情况下,来自交互感知的估计可以用作学习被动感知的基础真值。因此,交互式感知为自我监督学习提供了基础。由于知觉取决于动作,因此交互知觉通常与主动学习相结合,以主动选择使学习性能最大化的动作。
2.4分层任务分解和技能可重用性
操作任务表现出高度的层次结构。 例如,打扫房屋的任务可以分为子任务,例如打扫碗碟,给地板抽真空以及处理垃圾。 然后,可以将这些子任务进一步分为较小的子任务,例如,抓住盘子或垃圾袋。 甚至掌握等基本技能也可以进一步分为多个面向目标的行动阶段。 该层次结构将主要任务划分为更小,更易处理的问题。 机器人可以学习执行最低级别任务的技能策略,然后将这些技能用作执行下一级别任务的行动基础。 因此,机器人可以逐步学习技能的等级策略,所得到的策略等级反映了任务等级。 降低了层次结构每个级别的学习挑战的复杂性,从而可以更快地学习技能。
层次结构也很重要,因为它导致了模块化的结构。子任务和技能通常可以互换,以根据情况以不同的方式执行任务。模块化还允许预定义一些组件,并且学习其他组件,例如,可以为代理提供基本的抓握反射。更重要的是,类似的任务通常会在层次结构中多次出现。例如,切菜时,每片蔬菜都是一个单独的任务,并且略有不同。但是,这些任务非常相似,因此机器人应该将其概括化,而不是将它们视为具有独特技能的独特对象。我们将类似的任务集称为任务族。通过利用这些任务的相似性,机器人可以有效地学习整个任务系列的技能,因此可以多次重复使用。将这种模块化功能集成到机器人的控制器和模型中的能力取决于对任务的适当分解。因此,由机器人自主发现这种结构是操纵研究的主要主题。
2.5以对象为中心的概括
操纵任务的一个常见结构假设是,世界是由物体组成的,而机器人的目标通常是修改环境中一组特定对象的某些方面或属性。因此,通过对象进行泛化(跨不同对象,以及在不同任务实例中的相似(或相同)对象之间),是学习操纵的一个主要方面。操纵技能和任务模型的以对象为中心的表示形式通常足以在任务实例之间进行概括,但是在不同对象之间进行归纳将既需要运动技能,又需要适应对象形状,属性和外观变化的对象模型。在某些情况下,这可以隐式完成,例如,使用顺从的抓手,该抓手在抓握过程中自动将其形状与物体的形状相匹配。跨对象归纳的一种有效方法是找到一种抽象表示,在这种抽象表示下,即使对象系列在像素或特征级别上有很大不同,我们也可以将它们视为等效或相同的对象,并进行相应的调整。
2.6 发现新颖的概念和结构
在非结构化环境中工作的机器人通常会遇到新型物体。 使用这些对象执行新任务可能需要调整现有技能或学习全新的技能。 因此,在开放世界环境中学习不仅仅是机器人填补其知识库中的空白的问题。 相反,知识库的范围将继续扩大,有时会以无法预料的方式扩大。 处理新颖概念的能力是机器人自主性的重要方面,因为它使机器人能够处理意外情况。 为了有效地运行,机器人将需要能够从先前的经验中总结和传递知识,以构建这些新概念的学习过程。这种转移学习可能需要更多抽象的推理,这取决于新概念与先前概念的相似性。 幸运的是,如本节中所述,操纵任务具有大量的结构,自治型机器人在学习操纵任务时可以利用。
3 规范化操作学习任务
4. 学习对象和环境表示
要对操纵任务进行建模并概括操纵技能,就需要对机器人环境及其要操纵的对象进行表示。 这些表示形式是学习过渡模型,技能策略以及技能前后条件的基础,这将在后面的部分中进行讨论。
本节说明如何定义和学习操作任务的基于对象的状态和上下文空间。 我们还将说明机器人如何使用被动和交互式感知来发现对象并估计其属性。 由于提取的许多对象属性和特征可能与学习操纵任务的某些组件无关,因此,我们通过讨论如何选择和学习相关特征来结束本节。
4.1 对象表示
如第2节所述,机器人的物理环境具有可以利用的相当大的结构。 特别是,世界可以划分为对象,每个对象都可以通过特征或属性的集合来描述。 示例包括可移动物体,例如杯子,桌子和门,以及固定物体,例如柜台和墙壁。 机器人可以通过将环境细分为对象,然后估计其属性值来创建模块化表示。 通过允许机器人有效地概括跨不同任务的相似对象,该表示支持技能的重用。
对象表示法捕获对象在同一家族的任务内和跨任务的变化。 任务内的变化被状态空间捕获-这些特征可以改变操作动作; 跨任务变体被捕获为上下文空间的一部分-在任何特定任务中固定的属性,但有助于跨任务对的概括。 例如,当堆叠各种块时,块的形状和大小对于给定任务是固定的,因此是上下文的一部分。 但是,不同的堆叠任务可能会使用不同的块集,因此上下文随任务而变化。 泛化操纵技巧通常意味着隐式或显式地适应上下文和状态的变化。 例如,通用的拾取和放置技能应概括不同对象的形状(固定在任何特定任务中)以及它们在环境中的位置(可以通过任务中的动作进行修改)。
4.1.1 对象变化的类型
文献中有几种类型的任务内对象和跨任务对象变体。对象姿势(Pastor等,2009; Levine和Koltun,2013; Deisenroth等,2015)是最常见的变化,必须对其进行操作(例如,通过取放技巧)。但是,在某些情况下,这些可以固定在任务中,但在整个任务族中会有所不同,因此属于上下文(Da Silva等人,2014; Kober等人,2011; Jiang等人,2012; Levine和Koltun,2013年)(例如,擦拭任务中的表面高度(Do等人,2014年)。对象形状在任务中可能会通过铰接而变化(Niekum等人,2015a; Sturm等人,2010年; Katz等人,2010年;Martin-Martinın等人,2016年; Sturm等人,2011年),可变形(Schenck等人,2017年; Li等人,2016年; Schulman等人,2013年) ; Schenck and Fox,2018a; Li et al。,2018; Seita et al。,2018; Li et al。,2018),或可整除(Lenz et al。,2015b; Worgorger et al。,2013; Yamaguchi and Atkeson,2016b)对象。刚性对象的形状也可能因任务而异(Burchfiel和Konidaris,2018; Brandl等人,2014),这为泛化提出了挑战和机遇(Schenck和Fox,2018a)。物体的材料特性可能会有所不同,这可能会对操纵产生重大影响,但通常尽管有一些关于改变被操纵物体的材料特性的工作(Chitta等人,2011年),但是只有跨任务(例如,切割不同材料的物体(Lenz等人,2015b))才有变化。申克和斯托伊切夫(Schenck and Stoytchev),2012年; Isola等人,2015年)。
最后,物体的相互作用或相对性质可能会有所不同,包括机器人物体(Bekiroglu等,2013; Kopicki等,2016)和物体(Stoytchev,2005; Sturm等,2010; Kroemer等)。 等人,2018; Jund等人,2018)互动。 对象之间可能会因约束而相互作用(Jain和Kemp,2013),操纵可能会导致添加或删除约束的模式切换(Niekum等人,2015a; Baum等人,2017; Kroemer和Peters, 2014; Baisero等人,2015)。 也可以跨任务而不是在任务内部进行变化,例如,对于给定的橱柜,连接橱柜和门的接头的属性将保持不变,但不同的橱柜可能会有不同的约束条件(Sturm等,2010; Hausman等。 等人,2015; Niekum等人,2015a; Dang和Allen,2010)。
4.1.2 对象表示层次
对象模型可以分层表示,其层分别对应于点,部分和对象级别的表示,每个表示的详细程度有所降低,抽象程度有所提高,并提供了不同类型的概括。 此表示层次结构反映了对象及其零件的几何结构。 几何属性和特征捕获点,零件和对象的位置,非几何属性倾向于捕获定义这些元素的相应信息。 层次结构各个级别的表示都可以捕获一般的固有属性以及语义或面向任务的属性(Dang和Allen,2012; Myers等,2015; Jang等,2017)。 除了表示单个对象之外,机器人还可以表示层次结构不同层上的对象之间的交互。
点级表示:点级表示是层次结构中的最低级别,包括点云,像素和体素表示,用于详细捕获对象的部分或完整形状(Schenck等人,2017; Bohg和Kragic, 2010; Klingensmith等,2014; Florence等,2018; Choi等,2018)。 点级表示为机器人提供了最灵活的表示,用于捕获对象和操作任务的重要细节。
这些表示的每个元素都可以与其他功能(例如,与此点相对应的颜色或材料属性)相关联。 分割方法可用于根据标签所属的部分或对象将标签分配给各个点(Schenck和Fox,2018a; Myers等,2015)。 可以在此层次的层次上将交互建模为联系点(Kaul等人,2016; Dang和Allen,2012; Rosman和Ramamoorthy,2011; Kopicki等人,2016; Vi〜na等人,2013; Su 等人,2015; Veiga等人,2015; Piacenza等人,2017)。
可以通过在点级别建立对象与环境之间的对应关系来完成跨任务的概括。 机器人可以识别对象的各个关键点(例如,工具的尖端(Edsinger和Kemp,2006年)),或使用非刚性注册或几何变形来确定任务实例之间的整个点集的对应关系(舒尔曼 等人,2013; Hillenbrand和Roa,2012;Stâuckler和Behnke,2014; Rodriguez和Behnke,2018; Amor等人,2012)。 这些对应关系随后可用于直接映射任务之间的操作技能或计算更高级别的表示(Stâuckler和Behnke,2014)。
零件级表示:零件级的表示对应于层次结构较低级别上的多个连续点的集合(Sung等人,2017a; Detry等人,2013; Dang和Allen,2010; Byravan和Fox,2016 ),通常着重于与某些类型的操作相关的部分。 例如,一个杯子可以看成是有一个可以倒的开口,一个可以盛放的碗,一个可以抓握的手柄和一个可以放置的底部(Fagg and Arbib,1998)。 然后可以通过一组描述形状,姿势,颜色,材料,类型和表面特性等方面的特征来描述每个零件。 机器人可以使用零件级特征来表示不同对象的零件之间的相互作用或关系,或指示相互作用的类型以及由于相互作用而在零件之间施加的约束(例如,钉子必须小于插入孔) 任务)。
在零件级别定义对应关系可以跨不同类型的对象进行概括(Tenorth等,2013; Sung等,2015; Detry等,2013)。 许多对象具有提供相似交互作用的相似部分,尽管它们在整体上可能有很大的不同。 例如,硬币和螺丝起子是不同类型的对象,但是它们都具有短而细的金属边缘,可用于转动螺钉。 同样,许多对象都有可抓握的手柄。 因此,识别手柄对应关系可以转移抓握技能(Detry等,2013; Kroemer等,2012)。 因此,基于零件的表示使机器人可以在不同类别的对象之间进行概括,而不必推理对象的各个点(Sung等人,2015)。
对象级表示:对象级表示很重要,因为机器人通常选择对象而不是单个特征来进行操作(Janner等人,2019; Deisenroth等人,2015; Gao等人,2016; Jang等人, 2018)。因此,机器人必须在附加到每个对象的特征集之间进行概括。有用的对象级表示将特定于对象的属性(例如,对象的姿势,质量,整体形状和材料属性(用于统一对象))组合在一起。语义对象标签可用于区分不同类型的对象及其应如何操作(Jang等人,2017)。与零件相似,对象级交互功能通常会定义操作任务中对象之间的相对姿势,力和约束,例如用于堆叠块的相对姿势(Fang等人,2016; Jain和Kemp,2013; Ugur和Piater, 2015; Sundaralingam等,2019)。机器人还可以在此级别定义不同类型的交互(例如,对象A在对象B上或内部)或对象之间的关系(例如,相对大小和权重)以更抽象的形式捕获一组交互(Schenck等人,2012; Schenck和Fox,2018a; Kulick等,2013; Schenck和Stoytchev,2012; Fichtl等,2014)。跨对象的一般化通常需要在支持类似操作的不同对象之间建立对应关系(Devin等人,2018)。
机器人可能还需要表示一组对象,而不是对组内的单个对象进行建模,而是使用将一组对象表示为一个整体的特征通常会更加高效和健壮。 例如,杂波或机器人应避免与之碰撞的背景场景通常以类似于单个可变形或分段刚性物体的方式表示。 识别和推理单个对象可能不是必需的,甚至可能增加学习的额外复杂性,从而导致学习的概括性较差或较不可靠。 在组中操作特定对象可能需要机器人识别它,甚至主动将其分离(Gupta等,2015; Hermans等,2012)。
4.2 被动和互动感知
作为能够操纵周围环境的具体体现,机器人可以使用动作来增强对环境的感知。 因此,机器人感知大致分为被动感知和互动感知,主要区别在于机器人是否与环境进行物理交互。
被动感知一词是指感知环境而不利用与之互动的过程,即非互动感知(Isola等,2015),例如,基于摄像机图像识别和定位场景中的物体( Burchfiel和Konidaris,2018; Tremblay等,2018; Wang等,2019; Yamaguchi和Atkeson,2016a)。 被动感知使机器人可以毫不费力地从环境中快速获取大量信息。 被动感知不需要环境或传感器处于静止状态; 观察人类执行操作任务仍然是被动的,因为机器人本身并不执行交互。 同样,将相机移动到更好的有利位置仍然是一种非交互的感知方式,因为机器人不会向环境状态施加力或以其他方式改变环境状态(Saran等人,2017; Kahn等人。 ,2015)。
在交互式感知中(Bohg et al。,2017),机器人与周围环境进行物理交互以获得对环境的更好估计。 例如,机器人可以推动物体以更好地估计其约束或举起物体以估计其重量(Barrag´an等,2014; Hausman等,2015; Katz和Brock,2011)。 机器人可以使用多种传感器模式来观察其交互作用的影响,包括触觉,触觉,视觉和听觉(Lenz等人,2015a; Chitta等人,2011; H?ogman等人,2016; Griffith等,2012; Thomason等,2016)。
需要采取行动意味着互动感知比被动感知需要更多的时间和精力。 交互式感知的好处是能够区分场景并观察其他潜在特性(Tsikos和Bajcsy,1991; Chitta等,2011; Gao等,2016),从而使机器人能够减少不确定性。 例如,机器人可能不知道两个物体是牢固连接还是简单地接触? 互动感知可以检验每个假设。
不同的动作会产生不同的效果,因此,机器人可以通过选择更多的信息性动作来更快地了解其环境(Barrag´an等人,2014; Baum等人,2017; Dragiev等人,2013; Otte等人, 2014; Kulick等,2015; Saran等,2017; Kenney等,2009)。 例如,摇晃容器通常会提供比推动动作更多的信息(Schenck和Stoytchev,2012; Sinapov等,2014; Schenck等,2014)。 主动学习方法通常会估计环境中一个或多个变量的不确定性,然后根据所产生的熵,信息增益或互信息选择行动(Otte等人,2014; H?ogman等人,2016; Hausman等人 等人,2015; van Hoof等人,2014; Kulick等人,2015)。
检验假设的能力意味着交互式感知也可以用作监督信号,以学习使用被动感知来估计属性(Griffith等,2012; Pinto等,2016; van Hoof等,2014; Nguyen和 Kemp,2014; Wu等,2016; Kraft等,2008; Pathak等,2018)。 作为交互式学习的示例,机器人可以通过首先使用交互式感知来确定一组训练对象的质量,来学习根据其外观预测对象的质量。 这种形式的自我监督学习使机器人可以自动收集信息,因此对于使机器人能够在陌生的环境中运行至关重要。
4.3 了解对象及其属性
在解释了不同类型的对象变化和感知类型之后,我们现在讨论机器人如何从数据中了解周围的对象。
4.3.1 发现物体
学习中常见的第一步是区分场景中的单个对象,这是一个分割问题,通常使用被动感知来完成(Kraft等,2008; Alexe等,2012; Schwarz等,2018; Byravan和 Fox,2016; He et al。,2017)。 但是,场景中的对象可能经常靠近在一起,从而向机器人显示有关对象身份的模糊信息。 在这里,机器人可以保持关于不同部分是否属于同一对象的概率置信度(van Hoof等人,2014; Kenney等人,2009; Hausman等人,2012),并使用交互式感知或视点选择 消除场景歧义(Gualtieri和Platt,2017; Hermans等,2012; van Hoof等,2014; Hausman等,2012)。
4.3.2 发现自由度
一旦识别出单个物体,机器人可能需要识别它们的运动自由度(Niekum等,2015a; Jain和Niekum,2020; Hausman等,2012; Katz等,2010; Baum等。 ,2017; Sturm等,2010; Katz和Brock,2011; Abbatematteo等,2019)。这些约束和明确的连接对于建立对象的状态空间以进行操纵任务以及强大的姿势跟踪至关重要(Desingh等人,2018; Schmidt等人,2015)。通常使用具有自己的参数集的不同关节模型(例如,旋转或棱柱形)来表示不同类型的关节。例如,旋转关节模型由其旋转轴的位置,方向和限制指定(Sturm等,2010; Barrag´an等,2014; Niekum等,2015a; Sturm等, 2011)。机器人必须估计这些上下文参数,以准确地模拟自由度。被动感知可用于估计关节运动物体的运动链,特别是如果物体是由人移动的时候(Mart´ın-Mart´ın等人,2016; Niekum等人,2015a; Pillai等人, 2014年;布鲁克夏和特勒,2016年; Ja那教和尼克(2020年)。交互感知也非常适合估计关节模型参数和由此产生的运动约束(Sturm等,2010; Barrag´an等,2014; Hausman等,2015)。给定关节模型的高维参数空间,主动学习方法通常用于选择信息性动作以快速确定模型参数(Hausman等人,2015; Baum等人,2017),或者可以采用转移学习方法使用(Abbatematteo等人,2019)。
4.3.3 估计对象属性
机器人识别出环境中的物体后,下一步就是估算该物体的属性。 由于某些属性仅适用于某些类别的对象(Diuk等人,2008; Bullard等人,2018; Dragiev等人,2013; Bhattacharjee等人,2015;Schenck and Stoytchev,2012; Wu等,2016; Chitta等人,2011年),机器人必须首先识别对象类别。 对于操纵任务,对象类通常是从它们为机器人提供的动作和交互中派生的,例如容器,可抓握和可堆叠,使得与交互相关的属性可以轻松地与对象相关联。
在这里,机器人可以使用被动和交互式感知来估计对象的属性值(Gao等人,2016; Isola等人,2015; Li等人,2014; Varley等人,2019)。除物体识别外,被动感知通常用于估计位置,形状和材料特性(Li等人,2018; Bhattacharjee等人,2015; Wu等人,2016; Tremblay等人,2018; Garcia Cifuentes等人,2017; Schmidt等人,2015; Burchfiel和Konidaris,2017; Issac等人,2016; Burchfiel和Konidaris,2018;W¨uthrich等人,2015; Yamaguchi和Atkeson,2016a)。然而,通常可以使用其他交互感知来获得这些属性的更准确的估计(Chitta等,2010; Bjorkman等,2013; Dragiev等,2013; Javdani等,2013; Petrovskaya和Khatib,2011; Koval等,2017)。通常仅使用被动感知很难准确估计材料和交互属性。通过与物体交互并使用触觉感知,可以显着改善估计值(Sinapov等人,2011a,b,2014; Sung等人,2017b; Gao等人,2016; Lenz等人,2015a; Hsiao等等人,2010; Varley等人,2019)。探索性动作也可用于估计物体的动态属性,例如质心或容器的内容物(Guler等,2014; Schenck等,2014; Chitta等,2011)。
4.4 特征学习和选择
即使环境中可能包含许多对象和感官刺激,但是对于给定任务,通常只有很少的对象属性或感觉信号才有意义。 例如,当打开一个瓶子时,盖子的大小是一个重要的特征,但是椅子的颜色却无关紧要。 使用一组合适的相关功能可以简化技能和模型学习问题。 它还增加了鲁棒性和对新情况的概括。 如果一组对象的属性足够丰富,则机器人可能只需要选择一组合适的属性作为学习特征(Devin等人,2018; Kroemer和Sukhatme,2017; Montesano等人,2008; Song等人) 等人,2011; Stramandinoli等人,2018)。 但是,在许多情况下,机器人将需要学习给定任务的一组功能。
无监督特征学习方法从未标记的训练数据中提取特征。 降维方法可用于捕获数据中的相关性,并丢弃信号的噪声成分。 对于操纵域,降维方法可用于学习复杂对象的紧凑表示或对象类别内的变化(Burchfiel和Konidaris,2017年; Bergstrom等人,2012年)。 也可以使用降维方法来减少机器人的抓握动作空间,以更好地适应常见的物体形状(Ciocarlie等人,2007)。 聚类方法用于将相似的数据样本聚类在一起。 对于操纵,聚类方法可以例如用于将不同类型的对象或连续效果的操纵聚在一起(Ugur和Piater,2015)。
有监督的方法将学习功能作为整体模型或技能学习过程的一部分。决策树和神经网络通常用于在监督环境下学习特征。深度学习尤其已经成为机器人技术中特征学习的无处不在。不同的网络结构和层(例如自动编码器,空间软最大层,卷积和分段掩码)可用于合并体系结构先验知识,以学习有用的功能。例如,分割蒙版可用于捕获图像中附近点的移动,以捕获一起移动的对象或零件的点(Byravan和Fox,2016; Finn和Levine,2017)。深度神经网络模型可用于表示具有高维观察空间的操作任务的状态空间。可以以面向任务的方式学习操纵环境的表示形式,以促进后续的计划和控制(Kurutach等,2018; Srinivas等,2018)。神经网络在组合来自多种传感器形式或信息源的数据方面也非常有效。对于操纵任务,机器人经常使用这种方法在被动模式(例如视觉)和更多交互模式(例如触摸和触觉)之间合并信息,或合并其他任务信息(例如指令)(Gao等人,2016 ; Lee等人,2019; Sung等人,2017a)。
5. 学习过渡模型
操纵任务的目的是改变机器人环境中对象的状态。 因此,捕获过渡状态变化的学习过渡模型是操纵学习的重要组成部分。
5.1 表示和学习过渡模型