zoukankan      html  css  js  c++  java
  • 论文阅读:Learning to combine primitive skills: A step towards versatile robotic manipulation Robin

    Learning to combine primitive skills: A step towards versatile robotic manipulation

    0.摘要

    对于机器人和视觉而言,诸如准备饭菜或组装家具之类的操作任务仍然极具挑战性。传统的任务和动作计划(TAMP)方法可以解决复杂的任务,但是需要完整的状态可观察性,并且不适合动态场景更改。最近的学习方法可以直接在视觉输入上操作,但通常需要进行许多演示和/或特定于任务的奖励工程。在这项工作中,我们旨在克服先前的局限性,并提出一种强化学习(RL)的任务计划方法,该方法可以学习结合原始技能。首先,与以前的学习方法相比,我们的方法在培训过程中既不需要中间奖励,也不需要完整的任务演示。其次,我们展示了我们的基于视觉的任务计划在具有挑战性的环境中具有临时遮挡和动态场景变化的多功能性。第三,我们通过探索最新的CNN架构和数据扩充,提出了一些合成演示中的基本技能的有效培训。值得注意的是,虽然我们的所有策略都是在模拟环境中的视觉输入上学习的,但是当将此类策略应用于实际UR5机械手臂上的操纵任务时,我们展示了成功的传输和很高的成功率。

    1.介绍

    在这项工作中,我们考虑视觉引导的机器人操纵,旨在学习针对特定任务的稳健的视觉运动控制策略。 鉴于实际环境的复杂性以及传感器提供的部分和不确定的观察结果,诸如组装宜家家具[1]之类的自主操作仍然极具挑战性。 成功的任务和动作计划(TAMP)[2] – [4]方法在完成复杂任务时可取得令人印象深刻的结果,但通常依赖于局限性的假设,例如完整的状态可观察性和已知的3D形状模型。 此外,TAMP方法通常在执行之前就完成了计划,并且对动态场景更改不具有鲁棒性。

    最近的学习方法旨在直接从图像输入中学习视觉运动控制策略。 模仿学习(IL)[5] – [8]是一种受监督的方法,可用于从专家演示中学习简单的技能。 IL的缺点之一是难以处理在演示过程中未发现的新状态。 尽管增加示威次数有助于缓解此问题,但对于冗长而复杂的任务,详尽地采样动作序列和场景变得不切实际。

    相比之下,强化学习(RL)只需很少的监督就可以完成一些挑战性任务[9],[10]。 RL探索了以前看不见的情况,因此可以推广到专家演示之外。 由于全面探索非常困难,并且对于长远问题变得不切实际,因此RL通常依赖精心设计的针对特定任务的奖励。

    诸如准备食物或组装家具之类的常见任务需要很长的步骤序列,这些步骤由许多不同的动作组成。 这些任务的眼界很长,因此,仅通过RL或IL方法很难解决。 为了解决此问题,我们提出了一种基于RL的方法,该方法学会了结合简单的基于模仿的策略。 我们的方法通过将RL的探索减少到具有有限数量的原始动作(我们称为技能)的序列来简化RL。

    给定一组预先训练的技能,例如“抓立方体”或“从杯子里倒”,我们用稀疏的二进制奖励来训练RL,该奖励对应于正确/不正确地执行完整任务。 尽管过去[11],[12]提出了分层策略,但我们的方法可以学习合成操作,而无需任何中间奖励,也无需演示完整的任务。 因此,所提出的方法可以直接应用于学习新任务。 有关我们的方法的概述,请参见图1。

    我们的技能是从具有行为克隆(BC)的合成演示轨迹学到的低级视觉运动控制器[5]。 技能的例子包括去碗,抓住物体,从持有的物体倒出,释放持有的物体等。我们会自动生成专家合成的演示并在模拟环境中学习相应的技能。 我们还通过选择适当的CNN架构和数据扩充方法来最大程度地减少所需的演示次数。 在FetchPickPlace测试环境[13]上,我们的方法显示出与现有技术[7]相当的优势。 此外,使用最新的领域自适应技术[14],我们演示了在真实的机器人上进行测试时,成功地传输了累加器训练策略,并且具有很高的准确性。

    我们将我们的方法与两种经典方法进行比较:(a)估计对象位置的开环控制器和使用标准运动计划器(b)调整控件以重新估计对象位置的闭环控制器。 我们展示了我们对各种扰动方法的鲁棒性。 扰动包括对象位置的动态变化,新对象实例和临时对象遮挡。 学到的策略的多功能性既来自BC学到的技能的反应能力,又有RL主策略在失败时进行重新计划的能力。 我们的方法允许实时计算自适应控制和计划。

    总而言之,这项工作做出了以下贡献。 (i)我们建议学习结合BC技能解决复杂任务的强大RL策略。 (ii)我们提供了有效的BC技能样本培训,并展示了与现有技术相比的改进。 (iii)我们展示了成功学习相对复杂的操纵任务的过程,既没有中间奖励,也没有完整的示范。 (iv)我们成功地将模拟中学到的策略转移并执行到真实的机器人设置中。 (v)我们显示在存在干扰的情况下成功完成任务。

    我们的模拟环境以及本工作中使用的代码和模型可在https://www.di.ens.fr/willow/research/rlbc/上公开获得。

  • 相关阅读:
    POJ 1981 最大点覆盖问题(极角排序)
    POJ 1286 Pólya定理
    POJ 1830 高斯消元
    HDU 3364 高斯消元
    Educational Codeforces Round 42D. Merge Equals(STL)
    ZOJ 3955:Saddle Point(思维)
    POJ 3301:Texas Trip(计算几何+三分)
    SCUT 125 :笔芯回文(DP)
    ZOJ 3953:Intervals(优先队列+思维)
    Codeforces Gym101097I:Sticks (思维)
  • 原文地址:https://www.cnblogs.com/feifanrensheng/p/14100003.html
Copyright © 2011-2022 走看看