先验概率后验概率和似然函数

zoukankan html css js c++ java

先验概率后验概率和似然函数

先验概率和后验概率

先验概率和后验概率是在条件概率的框架下引出来的

条件概率是这样说的：事件A发生条件下事件B发生的概率为$P(B|A) = frac{P(AB)}{P(A)}$

贝叶斯公式是关于事件A和B的条件概率的一则定理：$P(A|B) = frac{P(B|A) P(A)}{P(B)}$

贝叶斯公式的意义是什么？你对贝叶斯统计都有怎样的理解？ - 徐炎琨的回答 - 知乎，这里的解释非常的好，不仅仅解释了贝叶斯公式的含义，还介绍了似然函数等等一些知识。

我们从一个例子来看先验概率和后验概率

例：对以往的数据分析结果表明当机器调整得良好时，产品的合格率为 98% , 而当机器发生某一故障时，其合格率为 55% 。每天早上机器开动时，机器调整良好的概率为 95% 。已知某天早上第一件产品是合格品，试求机器调整得良好的概率是多少？
对于这道题的解答是这样的：
解：设A为事件“产品合格”，B为事件“机器调整良好”，已知 $P(A|B)=0.98 ,P(A|ar{B})=0.55, P(B)=0.95, P(ar{B})=0.05$,需要求的概率为$P(B|A)$,由贝叶斯公式可以得到
$P(B|A) = frac {P(A|B)P(B)} {P(A|B)P(B)+P(A|ar{B})P(ar{B})}$ = $frac{0.98 imes 0.95}{0.98 imes 0.95 + 0.55 imes 0.05} = 0.97$

上面的例子当中就隐含了先验概率和后验概率的思想。每天早上，机器调整良好的概率为0.95，这个概率是先验概率，是统计了历史上的数据计算出来的概率，而我们算出来的 0.97，是在有了“今早第一件产品是合格品”这一信息的基础上得到的概率，是一种后验概率。

先验分布和后验分布

上面我们讲的是概率，那么我们来看分布，如果我们要研究随机变量X，那么用概率就不妥了，我们用分布，即随机变量的分布情况。但是关于先验和后验，它的道理是不变的。先验分布是统计随机变量的以往数据而得到的分布情况。而后验分布是某个事件发生以后可以推测随机变量X的分布情况

可见，用概率和用分布仅仅是因为描述的事情不一样，前者描述单独的事件，后者描述整体分布情况。

似然函数的第一种引入情景 -- 参数估计

似然函数在参数估计当中引入的，若总体X属于离散型，假如它里面有某些变量$ heta$未知，它的分布律为$P(X=x) = p(x; heta)$,我们需要估计出参数$ heta$，其实在这里的时候，我们可以把$ heta$当做一种因变量，是$ heta$的值决定了X的分布情况。

那么假设我们从X里面得到了一组样本$X_1,X_2,X_3,…,X_n$来估计出来$ heta$的取值的话，那么我们需要定义似然函数，即事件样本$X_1=x_1,X_2=x_2,X_3=x_3,…,X_n=x_n$ 的时候的概率：

$L( heta) = L(x_1,x_2,x_3,…,x_n; heta) = prod limits_{i=1}^{n} p(x_i; heta) $

上面这个式子叫做似然函数，是关于$ heta$的函数。上面$x_1,x_2,x_3,…,x_n$的取值是固定的，它描述的是$X_1,X_2,X_3,…,X_n 取值为 x_1,x_2,x_3,…,x_n$的时候，我们能够预估到的$ heta$的可信度。并且这个式子最后的部分是$x_1,x_2,x_3,…,x_n$的联合概率分布。

似然函数表示的是当观察到一组事件发生的时候，我们的$ heta$的可信度是多少。

最大似然函数

似然函数是关于$ heta$的函数，$ heta$的取值不同，那么取得的概率不同，那么我们的想法是既然取得了$x_1,x_2,...,x_n$的值了，表明取得这些值的概率$L( heta)$较大，所以我们应该取能够使概率$L( heta)$最大的$ heta$值来当做我们的参数。这种方法就叫做最大似然函数。

求解方法：当把似然函数构造完以后，我们使用导数或者偏导数（对于多个参数）来进行求解。或者对似然函数取对数，然后进行求导，这叫做对数似然方程。

似然函数的第二种解释

若随机变量X和Y，X是因，Y是结果，

那么P(X) 叫做先验概率prior。

P(Y)叫做evidence。

P(X|Y)叫做后验概率，posterior。

P(Y|X)叫做似然， likelihood。

我们可以看到，这里的似然和条件概率其实是一样的。但是两者还是有区别的，我在这里论述一下：

似然是描述某件事情发生的可能性，而概率描述的是一个事情发生的概率。那么这又有什么不一样哪？

要看这个公式是似然还是概率，那么你需要看把那个量当做是变量。当你把X当做是变量，而Y是已经发生的常量的时候，它说的是似然，那么这个表达式说的是：在X（变量）的条件下Y已将发生这件事情的可能性。当你把X当做常量（已经确定了），而Y当做变量（即将要发生），那么这个表达式说的是：在X的条件下Y将要发生的可能性。

所以这个公式是一体两面，在计算的时候它们两个的值是相等的。

posterior = (likelihodd * prior) / evidence 即 $P(X|Y) = frac{P(Y|X) P(X)}{P(Y)}$ 其中 $frac{P(Y|X)}{P(Y)}$叫做标准相似度 standardised likelihood 这个公式就是贝叶斯公式。

因为$posterior propto likelihodd * prior $我们常说的后验概率 $ propto $ 似然 * 先验概率。

两种解释的关系

第一种解释是它的一种经典定义，把似然当做一种关于$ heta$变量的函数，在这个基础上我们可以可以求解最大的$ heta$值，使得参数最可信，这种方法就是最大似然估计。

而第二种方法，我们可以把里面的$ heta$当做是一个数来看待，而不是当做一个变量来看待，这个数的取值就是$ heta$。

归一化

我们令D为一系列观察到的事件

后验概率 $propto$ 似然 * 先验概率即 $P(X|D) propto L( heta |D) * P(X) $ 那么什么时候两边相等哪？

其中的$ L( heta|D) = P(D|X)$（由第一种解释中的等式可以得到），所以可以发现似然和条件概率密切相关。

替换以后可以得到$P(X|D) propto P(D|X) * P(X) $ 据贝叶斯公式，式子右边除以一个P(D)，两边就相等了，这个过程叫做归一化。

参考：

贝叶斯定理

似然函数

先验概率，后验概率，共轭分布与共轭先验

先验分布、后验分布、似然估计这几个概念是什么意思，它们之间的关系是什么？ - 徐鹏的回答 - 知乎

What is the difference between likelihood function and posterior probability?

详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

盛骤《概率论与数理统计》7.1

查看全文

相关阅读:
Java实现洛谷 P1028 数的计算
 Java实现洛谷 P1028 数的计算
 Java实现洛谷 P1028 数的计算
 Nginx+Memcached+Tomcat集群配置(MSM--win7 64bit)
Tomcat安装、配置、优化及负载均衡详解
 Nginx+Tomcat+Memcached部署
 Nginx+Tomcat+Memcached实现会话保持(MSM)
Nginx+tomcat配置集群负载均衡
 Nginx+Tomcat搭建高性能负载均衡集群的实现方法
 Nginx+Tomcat的配合使用

原文地址：https://www.cnblogs.com/jiaxin359/p/8721367.html

先验概率 后验概率 和 似然函数

先验概率和后验概率

先验分布和后验分布

似然函数的第一种引入情景 -- 参数估计

似然函数的第二种解释

两种解释的关系

归一化

先验概率后验概率和似然函数