zoukankan      html  css  js  c++  java
  • 强化学习(David Silver)7:策略梯度算法

    1、简介

    1.1、PolicyBased方法优劣

    优势:

    更好的收敛特性

    在高维或者连续的action空间里面有效

    可以学习随机策略

    劣势:

    收敛到局部最优,而非全局最优

    policy估计训练慢、高方差,有时候没有值函数有效:ValueBased方法使用Max贪心优化跑得快; 策略梯度方法在梯度方向走得慢

    1.2、Policy方法的优化目标

    这里有三个: 形式都没有看懂

    1.3、Policy方法的优化算法

    非梯度算法: 爬山法; 单纯性法/amoeba/NelderMead; 生成算法

    梯度算法: 梯度/共轭梯度/拟牛顿

    2、有限差分策略梯度

    2.1、方法

    不适用梯度公式, 直接使用梯度的定义来计算梯度

    2.2、优缺点

    优点: 简单有效, 不可微也可以计算

    缺点: 慢, 效率低

    36分钟的ScoreFunction是什么鬼???

    2.3、策略梯度定理

    对于任何目标函数, 策略梯度的形式都是一致的:

    3、Monte-Carlo策略梯度

    使用Monte-Carlo采样来计算策略梯度

    4、Actor-Critic策略梯度

    思想: Critic来拟合状态-动作值函数; Actor用来拟合值函数; 解决MC策略梯度高方差的问题

    如果发现文中有问题,敬请联系作者批评指正,真诚欢迎您的指教,谢谢!

    微信: legelsr0808

    邮箱: legelsr0808@163.com

  • 相关阅读:
    前端职场的那些事情
    PS中的图像知识
    HTML5学堂,感谢您一年的陪伴(上)
    浏览器与HTML5的相辅相成
    当学习前端过程中心态发生了变化
    前端入门相关工具
    初学HTML5、初入前端
    前端开发工程师的发展方向
    关于元素水平垂直居中的那些事?
    便捷的前端开发工具
  • 原文地址:https://www.cnblogs.com/ai1024/p/7701245.html
Copyright © 2011-2022 走看看