zoukankan      html  css  js  c++  java
  • 几句话总结一个算法之Policy Gradients

    • 强化学习与监督学习的区别在于,监督学习的每条样本都有一个独立的label,而强化学习的奖励(label)是有延后性,往往需要等这个回合结束才知道输赢

    • Policy Gradients(PG)计算某个状态下所有策略的分布概率,类似于经典分类问题给每个类别预测一个概率,好的PG应该给优良的策略分配较高的概率
    • PG基于以下假定:

      • 如果只在游戏终结时才有奖励和惩罚,该回合赢了,这个回合的所有样本都是有""偏正的",反之则该回合所有样本都是“偏负的”

      • 距离赢的那刻越近,贡献越大,越远贡献越小,一般采取指数衰减

      • 如果在游戏每个时刻都有奖励,那么当前行动贡献就是后面每个时刻奖励的衰减累计之和
    • 贡献大小则体现在对模型参数的调整步长上,具体操作有两种,一种是直接在每个样本的loss上乘以贡献大小,第二是先记下每个样本对模型参数的梯度,再依次乘以贡献大小来调整,两种方法殊途同归

    • PG是按照概率分布来随机选择动作的,其中已经包含了探索部分

  • 相关阅读:
    Form组件
    LAMP+Varnish的实现
    缓存反向代理-Varnish
    CDN初识
    HTTP缓存初探
    Keepalived搭建主从架构、主主架构实例
    实现高可用-Keepalived
    nginx负载均衡实例
    lvs集群实现lvs-dr模型和lvs-nat模型
    LVS介绍
  • 原文地址:https://www.cnblogs.com/daniel-D/p/11002334.html
Copyright © 2011-2022 走看看