zoukankan      html  css  js  c++  java
  • Lecture 2: Markov Decision Processes

    1.MDPs介绍

        1)马尔可夫决策过程正式描述了强化学习的环境,并且环境是可观测的

        2)当前状态完全刻画了整个过程

        3)几乎所有的强化学习问题都可以描述成为MDPs,比如

           最优控制优先使用连续MDPs

           部分可观测问题可以转换为MDPs

          “侠盗飞车”也是状态相关的MDPs

    2.马尔可夫特性:即无记忆性。也就是说,这一时刻的状态,受且只受前一时刻的影响,而不受更往前时刻的状态的影响。

     3. Markov Reward Process(马尔可夫链包括奖励值)

        折扣因子趋近于零说明未来对现状影响较小,折扣因子趋近于1说明未来对现状影响较大

    4.Bellman方程

       

    5.Markov Decision Process 是一种带决策的MRP,并且是一种所有状态都符合马尔可夫属性的环境

       

  • 相关阅读:
    vs2010启动调试很慢
    vs2010 cannot file the PDB file解决
    hadoop的版本到底什么样子
    关于spring 或者qurtz的配置
    eclipse 关于内嵌maven
    spring学习 mark一下
    spring mvc视图解析
    rcp项目
    邮件发送
    ASP.NET 缓存学习
  • 原文地址:https://www.cnblogs.com/--CYH--/p/6651775.html
Copyright © 2011-2022 走看看