zoukankan      html  css  js  c++  java
  • Reinforcement Learning 笔记(4)

    Sarsa Lambda

    此处引出了单步更新和回合更新的概念。

    单步更新,每次只学习上一步的信息,即更新的Q只和前一步的Q和下一步的Q有关,与更早的行动无关

    而回合更新则是学习一定数量的行动信息,不仅与前一步有关。lambda则是描述步数的参数。0代表默认的sarsa

    即只学习前一步。

    lambda=1则是回合更新每一步都有相同权重

    而一般来说,lambda是一个0-1的数,即前后的行动对学习的影响不同,越靠近学习的位置的行动,则权值较高,较远的(较早的)行动则权值较低。

     

     在实际的实现中,采用了名为eligibility traces的方式。

    它的过程是这样的:

    每当走到某个state,在某个表中(e_table)对该state对应的权值进行增加,而每走完一步,对整个e_table中的所有权重进行衰减(减小),以此来实现sarsa-lambda的效果。q_table的更新则是通过整个e_table来计算

  • 相关阅读:
    MSP430:管脚的第二功能选择
    MSP430 WDT
    MSP430 G2553 Timer 中断总结
    Timer A UP mode 中断
    AD10 库下载地址
    mysql的视图,事务,索引,外键
    mariadb主从配置
    DNS服务搭建
    数据库的连接查询
    数据库设计及ER模型
  • 原文地址:https://www.cnblogs.com/aitashi/p/12446568.html
Copyright © 2011-2022 走看看