zoukankan      html  css  js  c++  java
  • 增强学习笔记 第七章 多步Bootstrap

    多步TD是介于单步TD和MC之间的一种方法

    7.1 多步TD预测

    首先,定义n-step return:

    得出n步迭代更新:

     其中$G_t^{(n)}$满足下列误差递减性质:

    当n取一个折衷值的时候,平方误差最小

    7.2 n步Sarsa

    将状态价值换为动作价值,重新描述$G_t^{(n)}$:

    以及迭代更新式:

    对应的,Expected Sarsa的G值:

     

     7.3 n步off-policy学习

    Recall that off-policy learning is learning the value function for one policy, π, while following another policy, µ. Often, π is the greedy policy for the current actionvalue-function estimate, and µ is a more exploratory policy, perhaps ε-greedy.

    例如,如果$pi$中某个动作的概率是0,那么这个更新应该被忽略,如果$pi$中某个动作的可能性更高,那么自然也应该赋予更高的更新系数。

    现在照旧用Q来代替V,得到Sarsa更新式:

    off-policy通常比on-policy要收敛得慢。

    7.4 去掉Importance Sampling的Tree Backup算法

    7.5 Importance Sampling和Tree Backup的组合(略)

  • 相关阅读:
    2019年春季学期第三周作业
    2019年春季学期第二周作业
    7-2 求最大值及其下标 (20 分)
    7-1 查找整数 (10 分)
    人生中最重要的三位老师
    自我介绍
    学期总结
    编程作业 抓老鼠啊~亏了还是赚了?
    作业——10
    作业——9
  • 原文地址:https://www.cnblogs.com/milaohu/p/7628758.html
Copyright © 2011-2022 走看看