Policy Gradient

zoukankan html css js c++ java

Policy Gradient
策略梯度(Policy Gradient)

在一个包含Actor、Env、Reward Function的强化学习的情景中，Env和Reward Function是你所不能控制的。

Actor的策略 $π$ 是一个参数为 $θ$ 的网络
- 输入：以向量或者矩阵表示的机器观察
- 输出：关联到输出层某个神经元的一个动作
  
  策略执行的过程可以表示为一个迹(Trajectory) $au={s_1,a_1,s_2,a_2,...,s_T,a_T}$
$p_{ heta}( au)=p(s_1)p_ heta(a_1|s_1)p(s_2|s_1,a_1)p_ heta(a_2|s_2)...=p(s_1)prod p_ heta(a_t|s_t)p(s_{t+1}|s_t,a_t)$

引入奖励机制的话：

策略 $π$ 的奖励期望：
$overline{R}_ heta=sum R( au)p_ heta( au)=E_{ au sim p_ heta( au)}[R( au)]$

策略 $π$ 的总奖励：
$au)=sum_{t=1}^Tr_t$

策略梯度的计算方法：
$overline{R}_ heta = sum R( au) abla p_ heta( au)=sum R( au)p_ heta frac{ abla p_ heta( au)}{p_ heta( au)}$

由上式，计算策略梯度是， $R (τ)$ 不需要必须是可微的，甚至可以是一个黑盒。因为不需要对它进行求导。

借助 $\nabla f (x) = f (x) \nabla l o g f (x)$ ，可得：

$overline{R}_ heta = sum R( au)p_ heta( au) abla logp_ heta( au)=E_{ ausim p_ heta( au)}[R( au) abla logp_ heta( au)]$ $frac{1}{N}sum_{n=1}^{N}R( au^n) abla logp_ heta( au^n)=frac{1}{N}sum_{n=1}^Nsum_{t=1}^{T_n}R( au^n) abla logp_ heta(a_t^n|s_t^n)$

也就是说，我们是以采样求和的方式来逼近概率分布 $p_ heta( au)$ 下的期望的。

在给定策略 $pi_ heta$ 的条件下，我们采用梯度下降类似的策略梯度上升的方法来更新模型，注意每一个迹(Trajectory) 仅使用一次。

可以使用Tensorflow或者pyTorch来实现这个过程：

策略梯度在实现上有一些小技巧：
技巧一：添加基准线

在很多情况下，reward可能都只有正的，没有负的。因为实际计算是使用采样的方法来逼近期望的，所有概率的和应该等于1以保证概率有意义，那么上图中没有被采样到的动作a的概率会下降。

梯度计算时，在奖励函数R的部分添加一个负的偏移量b，这个偏移量b可以简单取整个奖励函数在迹 $τ$ 上的期望，这样就形成了一个基准线。高于基准线算出来的log概率是正的，低于基准线算出来log概率是负的。这会使得计算梯度的每一项有增有减，并且只有reward高于基准线，才让其action概率增加，从而解决了单纯因为没有采样导致某个action概率大规模下降的问题。

技巧二：采取更恰当的奖励：

以左半部分为例，上图的意思是，计算action $a_1$ 的reward，原本是只看 $s_a,a_1)$ 这一个pair，但由于执行了 $a_1$ 导致执行 $a_3$ 时会被扣2分，所以 $a_1$ 的reward应该是+3而不是+5。

所以计算reward的更为恰当的方法是，计算执行该步action后的reward总和。

更近一步还可以添加一个折扣因子 $γ$ ：

因为我们计算一个action的reward是采用对当前步及以后步求和方式进行的，所以前面步的action会对后面步的action的reward产生影响。引入 $γ$ 是为了使得距离越远的action对当前action的reward影响越小。

最后，b也可以是状态独立的，即每一个state都独有一个b。

还有一种方法是采用基于Actor-Critic模式的优势函数(Advantage function)： $A^ heta(s_t,a_t)$ 来替代 $au^n)-b$ 。优势函数衡量了在观察 $s_t$ 下采取动作 $a_t$ 而不是其他动作的好坏程度，由critic给出。
查看全文

相关阅读:
下巴肉和脖子肉怎么减肥
 java中compareTo和compare方法之比较，集合中对象的比较
 easyui中combotree只能选子选项，父级不被选中
 java线程总结（2/5）
流行的框架与新技术
 Spring官网改版后下载
 prepareStatement与Statement的区别
 jQuery li click失效问题
 Flask 启动报错 error: [Errno 10053]
[linux]CentOS 7 下安装 RabbitMQ

原文地址：https://www.cnblogs.com/wanghongze95/p/13842468.html

策略梯度(Policy Gradient)