REPAINT: Knowledge Transfer in Deep Reinforcement Learning - 走看看

zoukankan html css js c++ java

REPAINT: Knowledge Transfer in Deep Reinforcement Learning

发表时间：2021（ICML 2021）
文章要点：这篇文章提出了一个叫REPresentation And INstance Transfer (REPAINT)的算法来做RL里的知识迁移。主要方法就是representation transfer和instance transfer。这个representation transfer就是用一个cross entropy来约束teacher policy和(pi_θ)的距离，让他俩接近

训的时候就和PPO的loss合起来就完了

然后这个instance transfer就是说从teacher policy收集的轨迹里面也会有在现在这个task上表现好的轨迹，然后设一个阈值把好的拿出来用来训练(pi_θ)，作者把这个叫advantage-based experience selection，然后用到PPO里面的时候那个ratio就不除以(pi_{ heta_{old}})了，而是除以teacher policy

然后更新就是把这两个loss合起来就完了，参见上面的算法伪代码。
总结：实验做了很多，但是从各种参数看来，trick不会少。另外，感觉理论部分的假设有点太多了，而且还没写到正文里面，可能就是实验为主吧。
疑问：这里除以teacher policy的操作修正了权重，但是采样的轨迹是用了threshold之后的，那这个分布也不是(pi_{teacher})的了啊，这么做没有问题吗？
文章里面还专门说了句In addition, our method performs policy update without importance sampling.这个ratio ( ho_ heta)不就是importance sampling吗？

查看全文

相关阅读:
c++中的const关键字
 用类模板实现容器存储自定义数据类型（类似于STL里面的vector）
用类模板实现容器存储普通数据类型（类似于STL里面的vector）
pgmpy包的安装，以及conda的安装
 【SQL语言】SQL语言基础02
【win7系统】win7系统常遇到的一些问题
 【博客收集】一些关于个人博客、程序员书单、程序资源、学习方法的博文（持续更新中~）！
【分享】一些好的网站与技术博客
 【ORACLE】Oracle 忘记用户名和密码的和用户被锁定的解决办法
 【ORACLE】SQL Developer 与 PL/SQL Developer与SQL PLUS的使用问题

原文地址：https://www.cnblogs.com/initial-h/p/15484987.html

Copyright © 2011-2022 走看看