zoukankan      html  css  js  c++  java
  • 2.1 Binary variables 二元变量分布_PRML模式识别与机器学习读书笔记

    Bernouli 分布

    单变量x ∈{0, 1} ,x的概率由参数 μ,表示:

    b0f9e48c-f653-4750-9363-ca3e0b91c6f1

    92da9531-e713-4f79-8de9-2a240d6320f6

    统一格式,有:

    51715940-b1a7-4c9c-88c9-290a42ed3aa3

    Bernouli 分布,期望与方差:

    6a7f345d-71dd-4c21-b7be-9fb0bc161651

    对于x的观察数据集 e97e0cde-f951-48a9-8a22-9aeb287482c2,似然函数是 μ 的函数,假定 xi 之间独立,有:

    b1b52315-a85d-4c5e-a313-0341eeac2885

    从频率论角度,我们可以用最大化似然函数的方法(等价于最大化ln函数)来评估 μ 值,似然函数的自然对数有:

    ef72432d-451f-4f86-a385-11023fc09a08

    使得 lnp(D|μ)=0 ,得到μ 的最大似然估计:

    2ae7d15c-e833-43d5-8282-861c8c533c1e

    也即是样本均值,x=1的个数为m,则:

    db5ec659-1fc7-40d0-8552-2bf648e31c5b

    对于仍硬币实验,总共仍了3次,且出现的都是正面,那么μ ML= 1,预测以后都是扔出正面了,最大似然估计造成了over-fitting。

    对于小样本集更容易引起该问题,后面会介绍引入μ 的先验概率有助于得到更合理的结果。

    binomial distribution

    我们来看N个样本中x=1 的个数m的分布情况,这就是binomial distribution二项式分布了:

    68f497cd-465c-4e90-967e-30a26d133d1f

    期望和方差:

    8e8c545a-0262-448d-865f-a514cab954d1

    下图是m=10,μ=0.25的分布:

    ea1415b5-99b2-42d2-b0a5-0d4b2bf3c4a6

    2.1.1 Beta distribution

    gamma函数

    首先来复习一下gamma函数:

    15f458a7-9e8c-4902-9160-5d12cc951920

    有如下递归性质:

    Γ(x+1)=xΓ(x)

    由此容易得到:

    Γ(n)=(n−1)!

    我们在看一下Beta函数:

    767601f1-1750-4e79-bb12-fe16cf922fcc

    有:

    2bf2739e-d207-43e8-a4db-911fe930f77f

    Gamma函数在概率统计中使用非常广泛,在很多重要的分布,如t分布,χ2 分布,F 分布,Beta分布, Dirichlet 分布中都有它的影子。最直接的还是Gamma分布,由gamma函数变形:

    0112adb4-4f79-4251-ba85-6c575c90916c

    得到Gamma分布最简单形式的密度函数:

    8031124a-034b-4b9d-942f-75a8cea2d797

    做一个变换 x=βt,这样就得到Gamma分布普遍形式:

    e83b0589-38da-49a1-b568-fd7d02bfbe9e

    α :shape parameter, 主要决定了分布曲线的形状;

    β:   rate parameter ,inverse scale parameter (1/β 称为scale parameter),主要决定曲线有多陡。

    5d26599a-691d-4184-bd64-55c1dcae1eb3

        ​回到主题。前面我们说到Bernouli 分布在小数据集上使用最大似然法会出现overfitting,因此从贝叶斯理论出发,我们需要一个先验概率p(μ)。

        如何选取先验概率的分布?似然函数与μx(1-μ)1-x 成正比,我们希望先验也有类似的性质,这样后验概率(先验与似然函数的乘积)也会存在相似的结构,这种结构的先验概率称为共轭性:

         Conjugate Prior: In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. ----from wiki

        在贝叶斯统计理论中,如果某个随机变量Θ的后验概率 p(θ|x)和气先验概率p(θ)属于同一个分布簇的,那么称p(θ|x)和p(θ)为共轭分布,同时,也称p(θ)为似然函数p(x|θ)的共轭先验

        这里我们采用beta 分布作为先验:

    017a2ad5-0110-45de-ab9a-0e4d861c2455

        上式中的系数保证分布的归一化,即使的:

    cfe0abe6-a3d7-40be-be7e-6607a980b885

        期望与方差:

    056cf776-a407-4797-a00a-89538b477a83

        beta分布取不同a,b值的分布:

    a5bbe483-7af2-4718-99e1-ea72cf40bbb4

        μ 的后验分布由二项分布的似然函数2.9式与先验相乘并归一化,有下面的形式:

    7aefa082-cd55-42ef-a13d-6bcb8384bb72

        其中l=N-m,归一化可以参考2.13式得到系数,确切的概率:

    94ddbe0d-496f-47a2-84c3-241ba3fbe00f

        这又是一个beta分布,a和b分别增加了m和n,而这个后验又可以作为后续猜测的先验,最后还是得到一个beta分布。这种方式称为sequential approach,  下图是一个sequential Bayesian inference连续贝叶斯推理,前后都是beta分布;先验中a=b=2,只试验了一次,N=m=1,后验的beta参数:a=3,b=2:

    1a16d404-0e68-45b3-9d1b-43923e5ce232

         而得到的分布我们可以看到会越来越sharp,因为观测的数据越多,不确定性也就是越来越小了。

         如上面的beta分布图我们可以看到,a,b越大,图形越来越sharp,方差也就越来越小了。

        假如我们要预测下一次实验的结果,也就是给定现有实验数据D,得到下次预测的分布:

    57816878-0497-4914-9c54-2911459dd508

        结合2.15 beta分布的均值公式,得到:

    a2932b82-152c-4879-98bc-46c774197737

        可以看出,当m,n趋于无穷时,结果逼近最大似然结果,这也是一个普遍性质:贝叶斯与最大似然方法基于无限大数据集的结果是一致的。

  • 相关阅读:
    成功实施的APS项目故事分享---我们数据治理的心路历程
    成功实施的APS项目故事分享---如何管理与激励APS项目团队
    东莞裕同&易普优APS项目启动啦!
    包装印刷行业裕同集团&易普优APS项目顺利验收!
    易普优APS混流排序算法助力汽车整车厂的均衡生产
    动态调用WebService接口
    C#推送RocketMQ信息
    DEV带筛选行CheckBox选中问题
    验证上传文件真实格式
    PLSQL导出触发器代码
  • 原文地址:https://www.cnblogs.com/enJeffrey/p/3550277.html
Copyright © 2011-2022 走看看