MDP又称马尔可夫决策过程。
MDP提供了一种结果部分随机部分可控的决策制定框架,具体而言,马尔可夫决策过程是离散时间点的随机控制过程。 在每一步,过程在特定的状态S,而决策者可能选择任何在状态S下可用的行动 a,过程在下一个时间点随机的进入S'状态,并且给予决策者奖励 。
过程选择行为a 进入 状态的可能性由状态转移函数
决定,然而下一个状态S'只依赖于当前状态,而与以前的状态无关,换句话说,马尔科夫决策过程的状态转移具有markov性。
马尔可夫决策过程是一个四元组。其中
![S](http://upload.wikimedia.org/math/5/d/b/5dbc98dcc983a70728bd082d1a47546e.png)
![A](http://upload.wikimedia.org/math/7/f/c/7fc56270e7a70fa81a5935b72eacbe29.png)
![A_s](http://upload.wikimedia.org/math/3/0/0/30026a57bf14900443cf84dce1de6ddd.png)
![P_a(s,s') = Pr(s_{t+1}=s' mid s_t = s, a_t=a)](http://upload.wikimedia.org/math/0/3/1/03197f34b3da5953b54580ae5b3d2307.png)
![R_a(s,s')](http://upload.wikimedia.org/math/f/2/7/f276a10ab54b110778d2570f77266269.png)
最主要的问题是如何找到一个策略使总预期回报最大。
选择一个策略
![pi](http://upload.wikimedia.org/math/5/2/2/522359592d78569a9eac16498aa7a087.png)
-
(where we choose
)
-
当中
是折扣因子,
。
下面介绍二种解决算法
其中
值迭代算法。
1、 将每一个s的V(s)初始化为0 2、 循环直到收敛 { 对于每一个状态s,对V(s)做更新 } |
2、 循环直到收敛 { } |