强化学习入门笔记系列——稀疏奖赏和模仿学习

zoukankan html css js c++ java

强化学习入门笔记系列——稀疏奖赏和模仿学习
本系列是针对于DataWhale学习小组的笔记，从一个对统计学和机器学习理论基础薄弱的初学者角度出发，在小组学习资料的基础上，由浅入深地对知识进行总结和整理，今后有了新的理解可能还会不断完善。由于水平实在有限，不免产生谬误，欢迎读者多多批评指正。如需要转载请与博主联系，谢谢

稀疏奖赏

什么是稀疏奖赏？

稀疏奖赏指对于某些环境而言，在强化学习的训练过程中大部分时候都无法获得奖励，使得agent难以学到动作或策略的价值。在这类系统中完成RL的训练是困难的，由于奖赏的稀疏或延迟，多数情况下动作缺乏引导和评估，因而很难进行学习。为解决这类问题，人们提出了不同的方案，其中比较常见的有：奖励函数设计（Reward Shaping）、课程学习（Curriculum Learning）、分层强化学习（Hierarchical RL）等。

什么是奖赏函数设计（Reward Shaping）？

奖赏函数设计最容易理解，就是通过人为地在环境中设置一些奖赏，来引导agent的学习。比如射击类游戏中，原本需要最终击杀敌人才能获得奖励，但在此过程中还有许多必要或重要的步骤，在没有奖励的情况下agent很难在短时间内学习到正确的流程，因此需要在过程中对特定状态-动作（如转身搜索目标、换弹夹或寻找掩体等）设计一些奖赏，来引导其更快更好地向最终目标进发。奖赏函数设计可以一定程度上解决稀疏奖赏的问题，但需要设计者对于环境有充分的了解，否则难以设计出合适的奖赏函数。

什么是好奇心机制（Curiosity）？

奖赏函数设计方法中有一类较为独特的方法被称为好奇心机制。在好奇心机制中，首先引入一套新的被称为ICM(intrinsic curiosity module) 的奖励函数，它的奖励(r_i)同原始的奖赏一样会被加入到总的累积奖赏中，这套奖励函数运行的机制如下：首先有一个神经网络，它在RL训练过程中不断输入当前的状态(s_t)和动作(a_t)，输出是预测的下一个动作(s_{t+1})。当输出的预测值与实际的下一状态差别越大，则所获的奖励(r_t)就越大。也就是说好奇心机制会自行驱动agent去探索没有见到过的状态，或采取过去未曾用过的动作，而不会因为奖赏稀疏就在已探索过的范围内打转。通过这样一套奖励函数的引入可以较好地引导agent在稀疏奖励下的探索。

什么是课程学习（Curriculum Learning）？

参考资料：
1. DataWhale组队学习资料——《强化学习》王琦杨毅远江季著
查看全文

相关阅读:
装饰器
 初始面向对象
 生成器迭代器
 初识函数
 文件操作
 数据类型补充
 题
 集合元祖字典
 Python练习题 034：Project Euler 006：和平方与平方和之差
 Python练习题 033：Project Euler 005：最小公倍数

原文地址：https://www.cnblogs.com/liugd-2020/p/13934703.html

最新文章
less-5
less-4
less-3
less-2
less-1
Python基础2
Python基础1
Python基础
 区分方法和函数
 isinstance, type, issubclass

强化学习入门笔记系列——稀疏奖赏和模仿学习

稀疏奖赏

什么是稀疏奖赏？

什么是奖赏函数设计（Reward Shaping）？

什么是好奇心机制（Curiosity）？

什么是课程学习（Curriculum Learning）？