zoukankan      html  css  js  c++  java
  • 强化学习入门笔记系列——稀疏奖赏和模仿学习

    本系列是针对于DataWhale学习小组的笔记,从一个对统计学和机器学习理论基础薄弱的初学者角度出发,在小组学习资料的基础上,由浅入深地对知识进行总结和整理,今后有了新的理解可能还会不断完善。由于水平实在有限,不免产生谬误,欢迎读者多多批评指正。如需要转载请与博主联系,谢谢

    稀疏奖赏


    什么是稀疏奖赏?

    稀疏奖赏指对于某些环境而言,在强化学习的训练过程中大部分时候都无法获得奖励,使得agent难以学到动作或策略的价值。在这类系统中完成RL的训练是困难的,由于奖赏的稀疏或延迟,多数情况下动作缺乏引导和评估,因而很难进行学习。为解决这类问题,人们提出了不同的方案,其中比较常见的有:奖励函数设计(Reward Shaping)、课程学习(Curriculum Learning)、分层强化学习(Hierarchical RL)等。

    什么是奖赏函数设计(Reward Shaping)?

    奖赏函数设计最容易理解,就是通过人为地在环境中设置一些奖赏,来引导agent的学习。比如射击类游戏中,原本需要最终击杀敌人才能获得奖励,但在此过程中还有许多必要或重要的步骤,在没有奖励的情况下agent很难在短时间内学习到正确的流程,因此需要在过程中对特定状态-动作(如转身搜索目标、换弹夹或寻找掩体等)设计一些奖赏,来引导其更快更好地向最终目标进发。奖赏函数设计可以一定程度上解决稀疏奖赏的问题,但需要设计者对于环境有充分的了解,否则难以设计出合适的奖赏函数。

    什么是好奇心机制(Curiosity)?

    奖赏函数设计方法中有一类较为独特的方法被称为好奇心机制。在好奇心机制中,首先引入一套新的被称为ICM(intrinsic curiosity module) 的奖励函数,它的奖励(r_i)同原始的奖赏一样会被加入到总的累积奖赏中,这套奖励函数运行的机制如下:首先有一个神经网络,它在RL训练过程中不断输入当前的状态(s_t)和动作(a_t),输出是预测的下一个动作(s_{t+1})。当输出的预测值与实际的下一状态差别越大,则所获的奖励(r_t)就越大。也就是说好奇心机制会自行驱动agent去探索没有见到过的状态,或采取过去未曾用过的动作,而不会因为奖赏稀疏就在已探索过的范围内打转。通过这样一套奖励函数的引入可以较好地引导agent在稀疏奖励下的探索。

    什么是课程学习(Curriculum Learning)?

    参考资料:

    1. DataWhale组队学习资料——《强化学习》 王琦 杨毅远 江季 著
  • 相关阅读:
    Luogu 1080 【NOIP2012】国王游戏 (贪心,高精度)
    Luogu 1314 【NOIP2011】聪明的质检员 (二分)
    Luogu 1315 【NOIP2011】观光公交 (贪心)
    Luogu 1312 【NOIP2011】玛雅游戏 (搜索)
    Luogu 1525 【NOIP2010】关押罪犯 (贪心,并查集)
    Luogu 1514 引水入城 (搜索,动态规划)
    UVA 1394 And Then There Was One / Gym 101415A And Then There Was One / UVAlive 3882 And Then There Was One / POJ 3517 And Then There Was One / Aizu 1275 And Then There Was One (动态规划,思维题)
    Luogu 1437 [HNOI2004]敲砖块 (动态规划)
    Luogu 1941 【NOIP2014】飞扬的小鸟 (动态规划)
    HDU 1176 免费馅饼 (动态规划)
  • 原文地址:https://www.cnblogs.com/liugd-2020/p/13934703.html
Copyright © 2011-2022 走看看