强化学习：MDP(Markov Decision Process) 【待完成】

zoukankan html css js c++ java

强化学习：MDP(Markov Decision Process) 【待完成】

0.强化学习（reinforcement learning），特点是引入奖励机制。【强化学习属于机器学习框架中的什么部分？】

1.引出MDP的思路

=>Random variable

=>Stchastic Process

=>Markov chain/Process

=>Markov Reward Process

=>Markov Decision Process

2.随机变量（Random variable）

强化学习是引入了概率的一种算法，随机变量是研究对象，比如随机变量X。

关于随机变量有几个问题需要回答：

这个随机变量是服从于哪种概率分布？

这个概率分布对应的概率密度函数什么？

这个随机变量是离散分布还是连续分布？

是一维随机变量还是多维随机变量？

不同的随机变量之间是什么关系？

以下针对这几个问题尝试进行回答。

概率分布（prob dist）是指用于表述随机变量取值的概率规律。随机变量的概率分布指的是随机变量的可能取值及取得对应值的概率。

概率分布有几种类型，最常见的是高斯分布（即正态分布）【此外还有0-1分布等等】。若随机变量X服从于期望为u，协方差为Σ的高斯分布，则写作X~N(u,Σ)

每种分布对应的有一个概率密度函数（probability density function:PDF），高斯分布的概率密度函数如下：

其中，u是期望，σ²是协方差。【均值和方差是X为一维变量时期望和协方差的描述方式】。

随机变量离散分布含义是X的取值是离散的。随机变量连续分布含义是X的取值是连续的。

一维/高维随机变量的期望和方差公式如下:（待修改）

不同的随机变量之间的关系，可以根据不同模型的假设进行分析。比如Naive Bayes中，假设在Y被观测的前提下，x1,x2...xN之间两两条件独立。比如在HMM中就有观测独立假设和一阶齐次Markov假设。观测独立假设中X(t+1)只和Z(t+1)有关（也就是在Z(t+1)被观测的情况下，X(t+1)与其他随机变量条件独立）。一阶齐次Markov假设中Z(t+1)只和Z(t)有关（也就是说在Z(t)被观测的情况下，Z(t+1)与其他随机变量条件独立）。HMM中的Markov假设是”一阶“齐次Markov假设，如果是”二阶“Markov假设的话，Z(t+1)只和Z(t)，Z(t-1)有关（也就是说在Z(t)，Z(t-1)被观测的情况下，Z(t+1)与其他随机变量条件独立）。

3.随机过程(Stchastic Process)

4.马尔可夫链/马尔可夫过程(Markov chain/Process)

马尔可夫过程(Markov chain)是一个具有Markov性质的特殊的随机过程（stochastic process）。

5.马尔科夫奖励过程(Markov Reward Process)

其中 St是t时刻的状态变量，At是Action，Rt+1是对应t时刻的Reward。

参考资料：

1.作者：shuhuai008

查看全文

相关阅读:
关于RecyclerView你知道的不知道的都在这了（下）
关于RecyclerView你知道的不知道的都在这了（上）
读书笔记--Android Gradle权威指南（下）
读书笔记--Android Gradle权威指南（上）
写完批处理脚本，再写个Gradle脚本，解放双手
 写个批处理脚本来帮忙干活--遍历文件夹&字符串处理
 发布开源库到JCenter所遇到的一些问题记录
 swift GCD使用指南
 挣值管理（PV、EV、AC、SV、CV、SPI、CPI）记忆之我见
 一、通过企业账号申请证书

原文地址：https://www.cnblogs.com/feynmania/p/13304906.html