几句话总结一个算法之Policy Gradients - 走看看

zoukankan html css js c++ java

几句话总结一个算法之Policy Gradients
- 强化学习与监督学习的区别在于，监督学习的每条样本都有一个独立的label，而强化学习的奖励(label)是有延后性，往往需要等这个回合结束才知道输赢
- Policy Gradients（PG）计算某个状态下所有策略的分布概率，类似于经典分类问题给每个类别预测一个概率，好的PG应该给优良的策略分配较高的概率
- PG基于以下假定：
  
  如果只在游戏终结时才有奖励和惩罚，该回合赢了，这个回合的所有样本都是有""偏正的"，反之则该回合所有样本都是“偏负的”
  
  距离赢的那刻越近，贡献越大，越远贡献越小，一般采取指数衰减
  
  如果在游戏每个时刻都有奖励，那么当前行动贡献就是后面每个时刻奖励的衰减累计之和
- 贡献大小则体现在对模型参数的调整步长上，具体操作有两种，一种是直接在每个样本的loss上乘以贡献大小，第二是先记下每个样本对模型参数的梯度，再依次乘以贡献大小来调整，两种方法殊途同归
- PG是按照概率分布来随机选择动作的，其中已经包含了探索部分
查看全文

相关阅读:
第一册：lesson 117.
第一册：lesson 115.
Map集合。
第一册：lesson 113.
第一册：lesson 111.
泛型。
EXT.NET初学
 LINQ查询
 后台调用前端JS
数字与数组或者字符串里面的内容比较

原文地址：https://www.cnblogs.com/daniel-D/p/11002334.html

Copyright © 2011-2022 走看看