增强学习笔记第十章 On-Policy控制的近似 - 走看看

zoukankan html css js c++ java

增强学习笔记第十章 On-Policy控制的近似

10.1 片段性任务的半梯度控制

10.2 n步Sarsa控制

10.3 平均奖励：连续任务的新设定

定义一个策略的优劣函数：依照该策略执行的平均奖励

其中和起始状态无关，称为各态遍历性。早期任何决策的影响都是暂时性的，长期的平均收益仅仅取决于策略本身和环境的转移概率

$eta$函数用来评估一个策略的优劣已经足够。获得最大$eta$函数的策略称为最优策略。

在平均奖励的设定下，回报被定义为奖励和平均奖励的差

Bellman方程也可以写为：

TD误差可以写为：

迭代式为：

10.4 折扣设定的废弃

在折扣设定下，平均奖励为：因此折扣设定已经没有必要

10.5 n步差分半梯度Sarsa

回报：

TD误差：

查看全文

相关阅读:
javascript的自定义对象
 解决trim兼容性
 AJAX
javascript中的默认对象
 js原始数据类型
 javascript的内置对象
 空判断啊
 javascript的继承
 html如何设置P的高度为零?
asp.net 生成静态页自动分页

原文地址：https://www.cnblogs.com/milaohu/p/7634612.html

Copyright © 2011-2022 走看看