zoukankan      html  css  js  c++  java
  • 强化学习:MDP(Markov Decision Process) 【待完成】

    0.强化学习(reinforcement learning),特点是引入奖励机制。【强化学习属于机器学习框架中的什么部分?】

    1.引出MDP的思路

    =>Random variable

    =>Stchastic Process

    =>Markov chain/Process

    =>Markov Reward Process

    =>Markov Decision Process

    2.随机变量(Random variable)

    强化学习是引入了概率的一种算法,随机变量是研究对象,比如随机变量X。

    关于随机变量有几个问题需要回答:

    这个随机变量是服从于哪种概率分布?

    这个概率分布对应的概率密度函数什么?

    这个随机变量是离散分布还是连续分布?

    是一维随机变量还是多维随机变量?

    不同的随机变量之间是什么关系?

    以下针对这几个问题尝试进行回答。

    概率分布(prob dist)是指用于表述随机变量取值的概率规律。随机变量的概率分布指的是随机变量的可能取值取得对应值的概率

    概率分布有几种类型,最常见的是高斯分布(即正态分布)【此外还有0-1分布等等】。若随机变量X服从于期望为u,协方差为Σ的高斯分布,则写作X~N(u,Σ)

    每种分布对应的有一个概率密度函数(probability density function:PDF),高斯分布的概率密度函数如下:

    其中,u是期望,σ2是协方差。【均值和方差是X为一维变量时期望和协方差的描述方式】。

    随机变量离散分布含义是X的取值是离散的。随机变量连续分布含义是X的取值是连续的。

    一维/高维随机变量的期望和方差公式如下:(待修改)

      不同的随机变量之间的关系,可以根据不同模型的假设进行分析。比如Naive Bayes中,假设在Y被观测的前提下,x1,x2...xN之间两两条件独立。比如在HMM中就有观测独立假设和一阶齐次Markov假设。观测独立假设中X(t+1)只和Z(t+1)有关(也就是在Z(t+1)被观测的情况下,X(t+1)与其他随机变量条件独立)。一阶齐次Markov假设中Z(t+1)只和Z(t)有关(也就是说在Z(t)被观测的情况下,Z(t+1)与其他随机变量条件独立)。HMM中的Markov假设是”一阶“齐次Markov假设,如果是”二阶“Markov假设的话,Z(t+1)只和Z(t),Z(t-1)有关(也就是说在Z(t),Z(t-1)被观测的情况下,Z(t+1)与其他随机变量条件独立)。

    3.随机过程(Stchastic Process)

    4.马尔可夫链/马尔可夫过程(Markov chain/Process)

    马尔可夫过程(Markov chain)是一个具有Markov性质的特殊的随机过程(stochastic process)。

    5.马尔科夫奖励过程(Markov Reward Process)

    其中 St是t时刻的状态变量,At是Action,Rt+1是对应t时刻的Reward。

    参考资料:

    1.作者:shuhuai008

  • 相关阅读:
    c#对文件的读写
    win form treeview添加节点
    泛型的学习
    委托学习
    C#连接Oracle数据库解决报错(需要安装Oracle客户端软件8.1.7)的问题
    C#和Python 图片和base64的互转
    反射学习:(System.Reflection)
    objectivec:继承
    prism关键概念:
    三层架构的学习感悟(一)
  • 原文地址:https://www.cnblogs.com/feynmania/p/13304906.html
Copyright © 2011-2022 走看看