zoukankan      html  css  js  c++  java
  • 随机过程——马尔可夫决策过程

      马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统最优决策过程。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物,故又称马尔可夫型随机动态规划,属于运筹学中数学规划的一个分支。

    序贯决策

      有些决策问题,决策者只需要作一次决策即可,这类决策方法称单阶段决策。但是很多时候,不仅需要单阶段决策,更需要进行多阶段决策,即序贯决策。

      序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略),是用于随机性或不确定性动态系统最优化的决策方法。

    序贯决策特点

    • 无后效性。序贯决策是前一段决策方案的选择,直接影响到后一阶段决策方案的选择,后一阶段的选择取决于前一阶段决策方案的结果。
    • 多阶段性。序贯决策具有在时间上有先后之别的多阶段决策。决策者关心的是多阶段决策的总结果,而不是各阶段的当即结果。
    • 预测性。决策的实施是对各采用的多种可行方案进行比较,择其最优。序贯决策若对各种可行方案的前景加以预测,在预测的结果中会显示出最优可行方案。
    • 条件性。序贯决策是根据最优性原理求解,问题是所涉及的过程都要满足一定的条件,即马尔可夫性。也就是利用转移概率矩阵和相应的利润矩阵对不同方案在作出预测的基础上进行决策。
    • 连续性。每个阶段所面临的状态,带有各自的不确定性,需要对每一个阶段作出决策,下一个阶段决策是在前一个阶段决策基础上再进行决策,这样连续进行,形成一序列方案。

  • 相关阅读:
    使用hibernate实现树形结构无限级分类
    专家看台:盛大架构师周爱民回顾职业历程,分享十项建议
    开始运行命令大全
    rsvp.exe,AdskScSrv.exe ,avp.exe
    Web2.0 编程思想:16条法则
    李嘉诚:性格才是命运的决定因素
    中兴笔试题目
    管理Websphere的10个有用命令
    我的程序语言实践
    20200514:实现分布式Session的过程是怎样的?
  • 原文地址:https://www.cnblogs.com/zhangzefei/p/9907997.html
Copyright © 2011-2022 走看看