马尔科夫决策要求
1.能够检测到理想状态
2.可以多次尝试采取不同动作
3.系统的下一个状态只与当前状态有关,而与之前的状态无关。在决策过程中还和当前采取的动作有关。
马尔科夫决策过程与5个因素有关:
S:表示状态集
A:表示一组动作
P:表示状态转移概率。Psa表示在当前状态S下,执行动作a,转移到其他状态的概率。
R:奖励还是。表示agent采取某个动作之后的及时奖励
γ:折扣系数。当γ等于0.5时,表示即时奖励占的比重为1,未来的reward占的比重为0.5.
状态价值函数:
1.智能体初始状态为S0
2.选择一个动作a0
3.按概率转移矩阵Psa转移到下一个状态S1