zoukankan      html  css  js  c++  java
  • Reinforcement Learning 笔记(4)

    Sarsa Lambda

    此处引出了单步更新和回合更新的概念。

    单步更新,每次只学习上一步的信息,即更新的Q只和前一步的Q和下一步的Q有关,与更早的行动无关

    而回合更新则是学习一定数量的行动信息,不仅与前一步有关。lambda则是描述步数的参数。0代表默认的sarsa

    即只学习前一步。

    lambda=1则是回合更新每一步都有相同权重

    而一般来说,lambda是一个0-1的数,即前后的行动对学习的影响不同,越靠近学习的位置的行动,则权值较高,较远的(较早的)行动则权值较低。

     

     在实际的实现中,采用了名为eligibility traces的方式。

    它的过程是这样的:

    每当走到某个state,在某个表中(e_table)对该state对应的权值进行增加,而每走完一步,对整个e_table中的所有权重进行衰减(减小),以此来实现sarsa-lambda的效果。q_table的更新则是通过整个e_table来计算

  • 相关阅读:
    用php爬取网页
    无论我是一只菜鸟笨鸟
    有线网卡与无线网卡同时使用
    scapy 命令理解
    Wireshark Filter
    python OS/pdb 模块及数据类型基础
    scapy down and install
    python 字符操作函数
    python 类型集
    python 科学计算
  • 原文地址:https://www.cnblogs.com/aitashi/p/12446568.html
Copyright © 2011-2022 走看看