强化学习(David Silver)2：MDP

zoukankan html css js c++ java

强化学习(David Silver)2：MDP

1、MP(马尔科夫过程)

1.1、MDP介绍

1）MDP形式化地表达强化学习的过程(此时假设环境完全可以观察)

2) 几乎所有强化学习问题都可以形式化为MDP

1.2、MDP定义

MDP是一个二元组<S，P>，其中S是状态集合；P是状态转移概率

2、MRP(马尔科夫奖励过程)

在MP中加入了Reward

Reward在状态后直接产生(课程中使用的G(GrossReturn)，是当前状态后所有Reward的和，是从T+1时间开始计算的，使用折扣累积的收益)

状态值函数:某个状态后的收益总和的期望

在MRP中，即时收益和action无关；仅和状态有关，状态出现后即产生收益

MRP的贝尔曼方程是一个线性方程组，可以直接求解；MRP不可以

MRP的迭代解法：DP/MC/TD

3、MDP(马尔科夫决策过程)

状态值函数和动作值函数的关系

最优策略:最优策略的所有状态值函数都比其它策略的状态值函数大

最优策略使得值函数达到最优

最优策略使得动作值函数达到最优

最优值函数是从某个最优动作选择的；最优动作值函数，却是加和所有状态值函数(*****因为策略觉得动作选择；而MDP决定状态转移，状态转移和策略无关)

最优策略没有公式解

求解方式:值迭代;策略迭代;Q-learing;Sarsa

4、MDP扩展

无限/连续MDP

部分观察MDP

无折扣，均值MDP

如果发现文中有问题，敬请联系作者批评指正，真诚欢迎您的指教，谢谢！

微信: legelsr0808

邮箱: legelsr0808@163.com

查看全文

相关阅读:
推荐！国外程序员整理的 PHP 资源大全
 PHPSTORM/IntelliJ IDEA 常用设置配置优化
 PHPStorm下XDebug配置
 MySQL修改root密码的多种方法
 php 修改上传文件大小（max_execution_time post_max_size）
phpstorm8注册码
 Linux提示no crontab for root的解决办法
 网站的通用注册原型设计
 解决mysql出现“the table is full”的问题
 通过php下载文件并重命名

原文地址：https://www.cnblogs.com/ai1024/p/7355779.html

强化学习(David Silver)2：MDP

1、MP(马尔科夫过程)

1.1、MDP介绍

1.2、MDP定义

2、MRP(马尔科夫奖励过程)

3、MDP(马尔科夫决策过程)

4、MDP扩展

如果发现文中有问题，敬请联系作者批评指正，真诚欢迎您的指教，谢谢！