增强学习笔记第七章多步Bootstrap - 走看看

zoukankan html css js c++ java

增强学习笔记第七章多步Bootstrap

多步TD是介于单步TD和MC之间的一种方法

7.1 多步TD预测

首先，定义n-step return:

得出n步迭代更新：

其中$G_t^{(n)}$满足下列误差递减性质：

当n取一个折衷值的时候，平方误差最小

7.2 n步Sarsa

将状态价值换为动作价值，重新描述$G_t^{(n)}$：

以及迭代更新式：

对应的，Expected Sarsa的G值：

7.3 n步off-policy学习

Recall that off-policy learning is learning the value function for one policy, π, while following another policy, µ. Often, π is the greedy policy for the current actionvalue-function estimate, and µ is a more exploratory policy, perhaps ε-greedy.

例如，如果$pi$中某个动作的概率是0，那么这个更新应该被忽略，如果$pi$中某个动作的可能性更高，那么自然也应该赋予更高的更新系数。

现在照旧用Q来代替V，得到Sarsa更新式：

off-policy通常比on-policy要收敛得慢。

7.4 去掉Importance Sampling的Tree Backup算法

7.5 Importance Sampling和Tree Backup的组合（略）

查看全文

相关阅读:
Java-马士兵设计模式学习笔记-代理模式-动态代理修改成可以任意修改代理逻辑
 Java-马士兵设计模式学习笔记-代理模式--动态代理修改成可以代理任意接口
 Java-马士兵设计模式学习笔记-代理模式-动态代理调用Proxy.newProxyInstance()
Java-马士兵设计模式学习笔记-代理模式-聚合与继承方式比较
 Java-马士兵设计模式学习笔记-责任链模式-模拟处理Reques Response
cmder的下载和使用
 poj 1067 取石子游戏
 1026 Table Tennis (30)（30 分）
poj 1088 滑雪
 1131 Subway Map（30 分）

原文地址：https://www.cnblogs.com/milaohu/p/7628758.html

Copyright © 2011-2022 走看看