zoukankan      html  css  js  c++  java
  • 马尔科夫决策过程

    马尔科夫决策要求

    1.能够检测到理想状态

    2.可以多次尝试采取不同动作

    3.系统的下一个状态只与当前状态有关,而与之前的状态无关。在决策过程中还和当前采取的动作有关。

    马尔科夫决策过程与5个因素有关:

    S:表示状态集

    A:表示一组动作

    P:表示状态转移概率。Psa表示在当前状态S下,执行动作a,转移到其他状态的概率。

    R:奖励还是。表示agent采取某个动作之后的及时奖励

    γ:折扣系数。当γ等于0.5时,表示即时奖励占的比重为1,未来的reward占的比重为0.5.

    状态价值函数:

    1.智能体初始状态为S0

    2.选择一个动作a0

    3.按概率转移矩阵Psa转移到下一个状态S1

    状态价值函数

  • 相关阅读:
    Idea主题下载
    使用plsql创建用户并授权(图形化界面)
    PLSQL Developer 没有64位版本 + 找不到 msvcr71.dll
    NOIp2017TG解题报告
    Restart
    NOIp2018RP++
    其他题
    Errors
    NOIpDairy
    Code Style for OI
  • 原文地址:https://www.cnblogs.com/loubin/p/12618217.html
Copyright © 2011-2022 走看看