Sarsa Lambda
此处引出了单步更新和回合更新的概念。
单步更新,每次只学习上一步的信息,即更新的Q只和前一步的Q和下一步的Q有关,与更早的行动无关
而回合更新则是学习一定数量的行动信息,不仅与前一步有关。lambda则是描述步数的参数。0代表默认的sarsa
即只学习前一步。
lambda=1则是回合更新每一步都有相同权重
而一般来说,lambda是一个0-1的数,即前后的行动对学习的影响不同,越靠近学习的位置的行动,则权值较高,较远的(较早的)行动则权值较低。
在实际的实现中,采用了名为eligibility traces的方式。
它的过程是这样的:
每当走到某个state,在某个表中(e_table)对该state对应的权值进行增加,而每走完一步,对整个e_table中的所有权重进行衰减(减小),以此来实现sarsa-lambda的效果。q_table的更新则是通过整个e_table来计算