MDP：马尔科夫决策过程（二）

zoukankan html css js c++ java

MDP：马尔科夫决策过程（二）
MDP：马尔科夫决策过程（Markov Decision Process）

策略评价：

对于确定性动作（deterministic actions），由于状态转换可能是无限的，那么奖惩函数之和的值也可能是无限的；对于随机性动作（stochastic actions），同样，奖惩函数期望之和也有可能是无限的。

需要定义一个客观函数（objective function）来将无穷的奖惩序列转换成单一的实数，来表示效用。

大概有三种方式：
1. 设立一个确定的界限，只计算这几步范围内的奖惩函数之和
2. 对每一步的奖惩添加折扣，并且偏向于较为靠前的状态的所收到的奖惩（reword）
3. 平均奖惩率（Average reward rate in the limit）
其中，第二种，折扣法是比较常用的，主要介绍这一种。折扣法：

第 n 步的奖惩（reword）被乘以γⁿ的折扣，这里的γ大于等于0，小于1。也就意味着该方法更偏向于较近的步数收到的奖惩

然后对这 n 步的带折扣奖惩进行累加

为了衡量一个策略的好坏，我们使用值函数 V_π（Value Function），定义如下：

在每一个状态按照策略 π 执行所获得的客观函数的值（Objective function）。

R(s,π(s))表示当前状态 s 下，按照策略 π 执行动作 π(s) 所获得奖惩

上面的式子也可写做递归的形式：

这样就可按照值函数对每个策略进行排列，就会存在至少一个最优策略，V*

（下一篇将接着介绍贝尔曼等式（Bellman equations））
查看全文

相关阅读:
2014/4/9-最近所想
 DNS坑爹呢？！
c#委托使用
 sqlserver 获取一个月有多少天
 定时提醒模型
 sqlserver导入dbf文件
 json对象中根据主键判断是否有重复数据
 差异备份与恢复
 html编码和解码
 opendatasource问题

原文地址：https://www.cnblogs.com/coolalan/p/4353034.html

MDP：马尔科夫决策过程（二）

策略评价：