Embodied Intelligence via Learning and Evolution

zoukankan html css js c++ java

Embodied Intelligence via Learning and Evolution

发表时间：2021
文章要点：这篇文章主要想说，设计了一个进化强化的框架Deep Evolutionary Reinforcement Learning (DERL)来模拟人类进化的方式，然后得出结论：复杂的环境会产生能力更强的morphology（形态学，这个词有点玄学了，其实就是可以产生不同结构的智能体就完事了）；进化会选择更好的morphology来继续进化，进化过程中产生了鲍德温效应（Baldwin effect: 没有任何基因信息基础的人类行为方式和习惯，经过许多代人的传播，最终进化为具有基因信息基础的行为习惯的现象）；这个过程稳定且高效（physically stable and energy efficient）。具体算法方面，就是并行训练一堆智能体做进化（tournament based evolution），进化里面套强化（PPO）。然后进化主要是改变智能体morphology：增加或者减少肢体；修正肢体的物理属性，比如长度和密度；修正关节的性质，比如自由度，旋转角度限制和齿轮齿数比（(1) either shrink or grow the kinematic tree by growing or deleting limbs (Fig. 1d); (2) modify the physical properties of existing limbs, like their lengths and densities (Fig. 1d); (3) modify the properties of joints between limbs, including degrees of freedom (DoF), angular limits of rotation, and gear ratios.）。结论是这个进化过程可以有效地产生策略完成任务，并且具有多样性。而且在学到任务的同时，对学习其他任务有加速效果，并且之前的任务越难，后面学其他任务就越快。
总结：文章说a novel computational framework，感觉并不novel啊，都快烂大街了。Alphastar这类算法不都是进化加强化吗。然后又扯了很多什么进化论的东西，没啥意义，最近好像还有篇训练足球的，也是这个路子，也扯了很多进化，行为学，宏观微观控制的东西，感觉比这个更复杂更全面（From Motor Control to Team Play in Simulated Humanoid Football）。感觉这篇文章水的过分了。
疑问：无。

查看全文

相关阅读:
Docker化高可用redis集群
 机器学习理论研究方法探讨
 (转载)iOS系统Crash文件分析方法
 ios 学习总结之动画（转）
（转）iOS sqlite ：truncate/delete/drop区分
 （转载）自定义 setDateFormat 显示格式
 （转载）IOS中UIScrollView的属性和委托方法
 vue 实现分页加载数据
 深入理解JQuery插件开发
 博客迁移到GitCafe

原文地址：https://www.cnblogs.com/initial-h/p/15379385.html