Reinforcement Learning 笔记（4） - 走看看

zoukankan html css js c++ java

Reinforcement Learning 笔记（4）

Sarsa Lambda

此处引出了单步更新和回合更新的概念。

单步更新，每次只学习上一步的信息，即更新的Q只和前一步的Q和下一步的Q有关，与更早的行动无关

而回合更新则是学习一定数量的行动信息，不仅与前一步有关。lambda则是描述步数的参数。0代表默认的sarsa

即只学习前一步。

lambda=1则是回合更新每一步都有相同权重

而一般来说，lambda是一个0-1的数，即前后的行动对学习的影响不同，越靠近学习的位置的行动，则权值较高，较远的（较早的）行动则权值较低。

在实际的实现中，采用了名为eligibility traces的方式。

它的过程是这样的：

每当走到某个state，在某个表中（e_table）对该state对应的权值进行增加，而每走完一步，对整个e_table中的所有权重进行衰减（减小），以此来实现sarsa-lambda的效果。q_table的更新则是通过整个e_table来计算

查看全文

相关阅读:
UVA 818 Cutting Chains 切断圆环链（暴力dfs）
UVA 211 The Domino Effect 多米诺效应（回溯）
UVA225 Golygons 黄金图形（dfs+回溯）
UVA208 Firetruck 消防车（并查集，dfs）
UVA11212 EditingaBook （ IDA*搜索）
UVA 140 Brandwidth 带宽（dfs回溯）
uva 1601 poj 3523 Morning after holloween 万圣节后的早晨（经典搜索，双向bfs+预处理优化+状态压缩位运算）
UVA10410 TreeReconstruction 树重建（dfs，bfs序的一些性质，以及用栈处理递归）
cdoj 414 八数码（双向bfs+康拓展开，A*）
UVA 246 10-20-30 10-20-30游戏模拟+STL双端队列deque

原文地址：https://www.cnblogs.com/aitashi/p/12446568.html

Copyright © 2011-2022 走看看