zoukankan      html  css  js  c++  java
  • 强化学习(David Silver)2:MDP

    1、MP(马尔科夫过程)

    1.1、MDP介绍

    1)MDP形式化地表达强化学习的过程(此时假设环境完全可以观察)

    2) 几乎所有强化学习问题都可以形式化为MDP

    1.2、MDP定义

    MDP是一个二元组<S,P>,其中S是状态集合;P是状态转移概率

    2、MRP(马尔科夫奖励过程)

    在MP中加入了Reward

    Reward在状态后直接产生(课程中使用的G(GrossReturn),是当前状态后所有Reward的和,是从T+1时间开始计算的,使用折扣累积的收益)

    状态值函数:某个状态后的收益总和的期望

    在MRP中,即时收益和action无关;仅和状态有关,状态出现后即产生收益

    MRP的贝尔曼方程是一个线性方程组,可以直接求解;MRP不可以

    MRP的迭代解法:DP/MC/TD

    3、MDP(马尔科夫决策过程)

    状态值函数和动作值函数的关系

    最优策略:最优策略的所有状态值函数都比其它策略的状态值函数大

    最优策略使得值函数达到最优

    最优策略使得动作值函数达到最优

    最优值函数是从某个最优动作选择的;最优动作值函数,却是加和所有状态值函数(*****因为策略觉得动作选择;而MDP决定状态转移,状态转移和策略无关)

    最优策略没有公式解

    求解方式:值迭代;策略迭代;Q-learing;Sarsa

    4、MDP扩展

    无限/连续MDP

    部分观察MDP

    无折扣,均值MDP

     

    如果发现文中有问题,敬请联系作者批评指正,真诚欢迎您的指教,谢谢!

    微信: legelsr0808

    邮箱: legelsr0808@163.com

  • 相关阅读:
    struts 提交问题
    struts spring整合出错
    hibernate.cfg.xml
    myeclipse copy问题
    myeclipse copy时出的问题
    mysql sql 语句
    Spring_Hibernate
    WebView
    Notification
    Handler(消息机制)
  • 原文地址:https://www.cnblogs.com/ai1024/p/7355779.html
Copyright © 2011-2022 走看看