Monte Carlo与TD算法

zoukankan html css js c++ java

Monte Carlo与TD算法

RL 博客：http://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&view=me&from=space&srchtxt=RL&page=1

转自：http://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&id=1128648，感谢分享

Monte carlo 和TD 都是model-free 的估值方法， TD 用于online RL 场景

强化学习中的Model-free问题主要的解决思路来源于统计方法。所谓统计方法又可分为Monte Carlo与TD算法。当学习任务可转化为episode task形式时，Monte Carlo与TD算法在实现上的不同主要体现在如何更新状态动作值函数。n-step TD算法则是由两种不同的值函数更新形式相结合所产生的，所以想要理解n-step TD算法，对Monte Carlo与TD进行透彻地的解析是十分有必要的。

Backup Diagram的区别

Monte Carlo方法：每个执行一个episode task，更新episode开始时的状态值函数。假设一个episode开始时的状态为 $S t a r t$

Monte Carlo

TD方法：在任意一个episode task执行过程中所遇到的每个状态都会被更新，且每个状态的更新都依赖于下一个状态的值函数与到达下一个状态所获得的奖励。因为是边执行episode边更新值函数，这种方法又被称为on-line learning。实际上，类似MC方法将执行好的episode的轨迹(trajectory)保存在下来，再依照TD方法更新也可以达到与on-line learning相同的效果，但很明显，这个方法是off-line learning，也就是说线下与线上学习并不是区分Monte Carlo与TD算法的依据。TD算法的值函数更新可用下图表示出来：

TD

由上述示意图可以发现，TD方法的最后一步，也就是对状态 $S_{n}$

定步长与不定步长，TD方法

定步长与不定步长的更新方法在Bandit问题里就曾讨论过，定步长实际上为Recency-Weighted Average，不定步长则是Incremental形式。通常来说，Monte Carlo Prediction采用的是不定步长的值函数更新，TD方法则采用的是定步长形式，但也不是固定的，可以互换使用。理论上来说，定步长与不定步长的通用形式可以写为：
$V n + 1 (S) = V n (S) + α (X - V n (S))$
在这个式子中， $α$

Incremental Implementation作为不定步长的一种形式，可以说是比较好的平衡了收敛速度与均值方差之间的矛盾。对于Incremental形式来说，开始需要收敛速度时， $α$

为了解决这个问题，我们可以人为的构造出与原有需要估计的随机变量 $X$
$Y = R e w (S') + V (S')$
为什么MC方法中的随机变量 $X$

例子一：

假设共执行了N个episode，其中到达终态的episode个数分别为N1~N7。估计状态 $S_{1}$
$V (S 1) = \sum 6 i N i R i \sum 6 i N i$
如果使用TD方法，对状态 $S_{1}$
$V (S 1) = K 1 V ( S 2 ) + K 2 V ( S 3 ) K 1 + K 2 = \sum 6$
至于观察方差的变化，我们首先将通用的值函数更新方程做一个简单的化简：
$V n + 1 (S) = V n (S) + α (X - V n (S)) = (1 - α) V n (S)$
值函数 $V (S)$

例子二：

如上图所示，终态只有End1与End2，让我们假设episode到达End1所获得的Reward为1，到达End2所获得的Reward为0。如按照MC方法更新，则值函数通用更新方程中的随机变量 $X$
$P (X = 1) = 0.5$
依据方差计算公式，随机变量 $X$
$V a r (X) = E [X 2] - (E [X]) 2 = 0.25$
如果我们按照TD方法更新，则可先计算出 $V (S_{2}) = \frac{1}{3}$
$P (Y = 1 3 ) = 0.5$
TD方法的估计均值误差是MC方法的1/10，这也就是TD方法通常可以在保持与MC方法相同的估计均值误差的前提下会以更快的速度收敛的原因（Random Walk问题就很好的应证了这一点，可以参考Sutton书的Figure 6.2与Figure 6.3）。但实际上这也并非是绝对的，MC方法的表现非常仰赖Reward设计与实际的环境，当终态数量很多时，Reward值之间比较接近时，MC方法的估计均值误差也不一定差。

n-step TD

对于上述的例子二，可将其episode前进的过程分为三个阶段或三层（如下图所示），所构造的待估计随机变量 $Y = {V (S_{2}), V (S_{3})}$

下面给出2-step TD的Backup Diagram：

2-Step TD

可以写出n-step TD的构造随机变量 $Y$
$Y = R e w (S n) + V (S n)$
通常来说，在进入收敛状态后，n-step TD的均值估计误差并不会一定优于1-step TD，但却可以很好的控制收敛的速度与RMSE之间的平衡，并且n-step TD的优势在于可以很好与eligibility traces相关联，这里就不再深入讨论，只探讨n-step TD本身。

转载本文请联系原作者获取授权，同时请注明本文来自管金昱科学网博客。
链接地址：http://blog.sciencenet.cn/blog-3189881-1128648.html

查看全文

相关阅读:
Django文档翻译：模型参考(Model Reference)
Anthem.NET 的 "BAD RESPONSE" 问题的脚本调试技巧小结
 注意 JavaScript 中 RegExp 对象的 test 方法
 CodeProject 文章收藏 (200713)
Django 学习纪要(1) 模版语法
 关注一下 IronPython Community Edition
SubSonic 的字段名未转义问题修正
 Error while trying to run project: Unable to start debugging 绑定句柄无效
 Django 中自定义 tag 如何获取变量参数的值
 Karrigell 初次学习

原文地址：https://www.cnblogs.com/baiting/p/10276600.html