强化学习(David Silver)7：策略梯度算法 - 走看看

zoukankan html css js c++ java

强化学习(David Silver)7：策略梯度算法

1、简介

1.1、PolicyBased方法优劣

优势：

更好的收敛特性

在高维或者连续的action空间里面有效

可以学习随机策略

劣势：

收敛到局部最优，而非全局最优

policy估计训练慢、高方差，有时候没有值函数有效:ValueBased方法使用Max贪心优化跑得快; 策略梯度方法在梯度方向走得慢

1.2、Policy方法的优化目标

这里有三个: 形式都没有看懂

1.3、Policy方法的优化算法

非梯度算法: 爬山法; 单纯性法/amoeba/NelderMead; 生成算法

梯度算法: 梯度/共轭梯度/拟牛顿

2、有限差分策略梯度

2.1、方法

不适用梯度公式, 直接使用梯度的定义来计算梯度

2.2、优缺点

优点: 简单有效, 不可微也可以计算

缺点: 慢, 效率低

36分钟的ScoreFunction是什么鬼???

2.3、策略梯度定理

对于任何目标函数, 策略梯度的形式都是一致的:

3、Monte-Carlo策略梯度

使用Monte-Carlo采样来计算策略梯度

4、Actor-Critic策略梯度

思想: Critic来拟合状态-动作值函数; Actor用来拟合值函数; 解决MC策略梯度高方差的问题

如果发现文中有问题，敬请联系作者批评指正，真诚欢迎您的指教，谢谢！

微信: legelsr0808

邮箱: legelsr0808@163.com

查看全文

相关阅读:
XML和JSON优缺点
 JSON与XML优缺点对比分析
 json数据格式
 ajax 请求二进制流图片
 常用网站
 Js setTimeout 用法
 js Indexof的用法
 02_虚拟机的安装和SecureCRT、FileZilla、Xmanage、UltraEdit工具的介绍
 01_Hadoop学习笔记内容说明
 sudoers文件设置sudo命令无密码（root密码）登录

原文地址：https://www.cnblogs.com/ai1024/p/7701245.html

Copyright © 2011-2022 走看看