zoukankan      html  css  js  c++  java
  • 简单MDP分析(Markov decision processes)

    MDP又称马尔可夫决策过程。

    MDP提供了一种结果部分随机部分可控的决策制定框架,具体而言,马尔可夫决策过程是离散时间点的随机控制过程。 在每一步,过程在特定的状态S,而决策者可能选择任何在状态S下可用的行动 a,过程在下一个时间点随机的进入S'状态,并且给予决策者奖励  R_a(s,s')

    过程选择行为a 进入 s'状态的可能性由状态转移函数 P_a(s,s')决定,然而下一个状态S'只依赖于当前状态,而与以前的状态无关,换句话说,马尔科夫决策过程的状态转移具有markov性。

    马尔可夫决策过程是一个四元组。(S,A,P_cdot(cdot,cdot),R_cdot(cdot,cdot))其中

  • S 是有限的状态集合
  • A 有限行动集合(或者, A_s 是在状态s下可以选择的行动的集合),
  • P_a(s,s') = Pr(s_{t+1}=s' mid s_t = s, a_t=a) 是在状态s下时间点t执行行动a在时间点t + 1进入s'状态的概率。
  • R_a(s,s') 是由状态s到s'的立即回报(或者预期立即回报)。

    最主要的问题是如何找到一个策略使总预期回报最大。
    选择一个策略pi

  • sum^{infty}_{t=0} {gamma^t R_{a_t} (s_t, s_{t+1})}     (where we choose a_t = pi(s_t))
    当中 gamma  是折扣因子,0 le gamma < 1

    下面介绍二种解决算法

    其中
    clip_image054

    值迭代算法。

    1、 将每一个s的V(s)初始化为0

    2、 循环直到收敛 {

    对于每一个状态s,对V(s)做更新

    clip_image076

    }


     值迭代法使V值收敛到V*,而策略迭代法关注clip_image062[4],使clip_image062[5]收敛到clip_image069[6]

    1、 将随机指定一个S到A的映射clip_image062[6]

    2、 循环直到收敛 {

    (a) 令clip_image078

    (b) 对于每一个状态s,对clip_image080做更新

    clip_image082

    }

查看全文
  • 相关阅读:
    大数据量问题,按需按实际查询而不是一次加载。
    spring中注解事务认识
    sqlmap文件在tomcat7中运行报错原因及<![CDATA[ ]]>
    网站404,500错误页面的处理,及500异常写入errorLog日志
    javascript div z-index, input tabindex属性说明
    sqlmap映射继承机制及映射字段顺序与SQL查询字段顺序无关
    jquery类选择器无法取得对象问题原因
    linux服务器初步印象,远程连接mysql数据库,传输文件,启动/关闭tomcat命令
    Linux iptables 防火墙详解
    Nginx之location 匹配规则详解
  • 原文地址:https://www.cnblogs.com/xiaokangzi/p/3576148.html
  • Copyright © 2011-2022 走看看