zoukankan      html  css  js  c++  java
  • 先验概率 后验概率 和 似然函数

    先验概率和后验概率

    先验概率和后验概率是在条件概率的框架下引出来的

    条件概率是这样说的:事件A发生条件下事件B发生的概率为$P(B|A) = frac{P(AB)}{P(A)}$

    贝叶斯公式是关于事件A和B的条件概率的一则定理:$P(A|B) = frac{P(B|A) P(A)}{P(B)}$

    贝叶斯公式的意义是什么?你对贝叶斯统计都有怎样的理解? - 徐炎琨的回答 - 知乎 ,这里的解释非常的好,不仅仅解释了贝叶斯公式的含义,还介绍了似然函数等等一些知识。

    我们从一个例子来看先验概率和后验概率

    例:对以往的数据分析结果表明当机器调整得良好时,产品的合格率为 98% , 而当机器发生某一故障时,其合格率为 55% 。每天早上机器开动时,机器调整良好的概率为 95% 。已知某天早上第一件产品是合格品,试求机器调整得良好的概率是多少?
    对于这道题的解答是这样的:
    解:设A为事件“产品合格”,B为事件“机器调整良好”,已知 $P(A|B)=0.98 ,P(A|ar{B})=0.55, P(B)=0.95, P(ar{B})=0.05$,需要求的概率为$P(B|A)$,由贝叶斯公式可以得到
    $P(B|A) = frac  {P(A|B)P(B)}  {P(A|B)P(B)+P(A|ar{B})P(ar{B})}$  = $frac{0.98 imes 0.95}{0.98 imes 0.95 + 0.55 imes 0.05} = 0.97$

    上面的例子当中就隐含了先验概率和后验概率的思想。每天早上,机器调整良好的概率为0.95,这个概率是先验概率,是统计了历史上的数据计算出来的概率,而我们算出来的 0.97,是在有了“今早第一件产品是合格品”这一信息的基础上得到的概率,是一种后验概率

    先验分布和后验分布

    上面我们讲的是概率,那么我们来看分布,如果我们要研究随机变量X,那么用概率就不妥了,我们用分布,即随机变量的分布情况。但是关于先验和后验,它的道理是不变的。 先验分布是统计随机变量的以往数据而得到的分布情况。而后验分布是某个事件发生以后可以推测随机变量X的分布情况

    可见,用概率和用分布仅仅是因为描述的事情不一样,前者描述单独的事件,后者描述整体分布情况。

    似然函数的第一种引入情景 -- 参数估计

    似然函数在参数估计当中引入的,若总体X属于离散型,假如它里面有某些变量$ heta$未知,它的分布律为$P(X=x) = p(x; heta)$,我们需要估计出参数$ heta$,其实在这里的时候,我们可以把$ heta$当做一种因变量,是$ heta$的值决定了X的分布情况。

    那么假设我们从X里面得到了一组样本$X_1,X_2,X_3,…,X_n$来估计出来$ heta$的取值的话,那么我们需要定义似然函数,即事件样本$X_1=x_1,X_2=x_2,X_3=x_3,…,X_n=x_n$ 的时候的概率:

    $L( heta) = L(x_1,x_2,x_3,…,x_n; heta) =  prod limits_{i=1}^{n} p(x_i; heta) $

    上面这个式子叫做似然函数,是关于$ heta$的函数。上面$x_1,x_2,x_3,…,x_n$的取值是固定的,它描述的是$X_1,X_2,X_3,…,X_n 取值为 x_1,x_2,x_3,…,x_n$的时候,我们能够预估到的$ heta$的可信度。并且这个式子最后的部分是$x_1,x_2,x_3,…,x_n$的联合概率分布。

    似然函数表示的是当观察到一组事件发生的时候,我们的$ heta$的可信度是多少。

    最大似然函数

    似然函数是关于$ heta$的函数,$ heta$的取值不同,那么取得的概率不同,那么我们的想法是既然取得了$x_1,x_2,...,x_n$的值了,表明取得这些值的概率$L( heta)$较大,所以我们应该取能够使概率$L( heta)$最大的$ heta$值来当做我们的参数。这种方法就叫做最大似然函数。

    求解方法:当把似然函数构造完以后,我们使用导数或者偏导数(对于多个参数)来进行求解。或者对似然函数取对数,然后进行求导,这叫做对数似然方程。

    似然函数的第二种解释

    若随机变量X和Y,X是因,Y是结果,

    那么P(X) 叫做先验概率prior。

    P(Y)叫做evidence。

    P(X|Y)叫做后验概率,posterior。

    P(Y|X)叫做似然, likelihood。

    我们可以看到,这里的似然和条件概率其实是一样的。但是两者还是有区别的,我在这里论述一下:

    似然是描述某件事情发生的可能性,而概率描述的是一个事情发生的概率。那么这又有什么不一样哪?

    要看这个公式是似然还是概率,那么你需要看把那个量当做是变量。当你把X当做是变量,而Y是已经发生的常量的时候,它说的是似然,那么这个表达式说的是:在X(变量)的条件下Y已将发生这件事情的可能性。当你把X当做常量(已经确定了),而Y当做变量(即将要发生),那么这个表达式说的是:在X的条件下Y将要发生的可能性。

    所以这个公式是一体两面,在计算的时候它们两个的值是相等的。

    posterior = (likelihodd * prior) / evidence 即 $P(X|Y) = frac{P(Y|X) P(X)}{P(Y)}$ 其中 $frac{P(Y|X)}{P(Y)}$叫做标准相似度 standardised likelihood 这个公式就是贝叶斯公式。

    因为$posterior propto  likelihodd * prior  $我们常说的 后验概率 $ propto $ 似然 * 先验概率。

    两种解释的关系

    第一种解释是它的一种经典定义,把似然当做一种关于$ heta$变量的函数,在这个基础上我们可以可以求解最大的$ heta$值,使得参数最可信,这种方法就是最大似然估计。

    而第二种方法,我们可以把里面的$ heta$当做是一个数来看待,而不是当做一个变量来看待,这个数的取值就是$ heta$。

    归一化

    我们令D为一系列观察到的事件

    后验概率 $propto$ 似然 * 先验概率  即 $P(X|D)  propto L( heta |D) * P(X) $  那么什么时候两边相等哪?

    其中的$ L( heta|D) = P(D|X)$(由第一种解释中的等式可以得到) ,所以可以发现似然和条件概率密切相关。

    替换以后可以得到$P(X|D) propto P(D|X) * P(X) $ 据贝叶斯公式,式子右边除以一个P(D),两边就相等了,这个过程叫做归一化。

    参考:

    贝叶斯定理

    似然函数

    先验概率,后验概率,共轭分布与共轭先验

    先验分布、后验分布、似然估计这几个概念是什么意思,它们之间的关系是什么? - 徐鹏的回答 - 知乎

    What is the difference between likelihood function and posterior probability?

    详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

    盛骤 《概率论与数理统计》7.1

  • 相关阅读:
    sshd服务(使用ssh协议远程开启其他主机shell的服务)
    centos 端口及防火墙
    Linux系统常用指令积累
    Vue插值
    Vue生命周期钩子
    WinForm常用窗体属性及控件
    SQL Server 如何设置某列自增
    .mdf和.ldf文件导入SQL server 数据库
    .netCoreApi 定时任务
    c# web请求
  • 原文地址:https://www.cnblogs.com/jiaxin359/p/8721367.html
Copyright © 2011-2022 走看看