先验概率、后验概率以及共轭先验

zoukankan html css js c++ java

先验概率、后验概率以及共轭先验
转载一篇写的很好的文章，原文链接：http://blog.csdn.net/baimafujinji/article/details/51374202

贝叶斯定理：一个例子

其实我们在之前介绍朴素贝叶斯分类器时就介绍过它，如果你有点忘了，这里就通过一个例子来帮你回忆一下。

假设有一所学校，学生中60%是男生和40%是女生。女生穿裤子与裙子的数量相同；所有男生穿裤子。现在有一个观察者，随机从远处看到一名学生，因为很远，观察者只能看到该学生穿的是裤子，但不能从长相发型等其他方面推断被观察者的性别。那么该学生是女生的概率是多少？

用事件
根据贝叶斯公式

P(Ai|T)=P(T|Ai)P(Ai)∑ni=1P(T|Ai)P(Ai)=P(T|Ai)P(Ai)P(T)

基于以上所有信息，如果观察到一个穿裤子的学生，并且是女生的概率是

P(G|T)=P(T|G)P(G)P(T)=0.5×0.4÷0.8=0.25.

先验概率（Prior probability）

在贝叶斯统计中，先验概率分布，即关于某个变量

先验概率仅仅依赖于主观上的经验估计，也就是事先根据已有的知识的推断。例如，

在应用贝叶斯理论时，通常将先验概率乘以似然函数（Likelihood Function）再归一化后，得到后验概率分布，后验概率分布即在已知给定的数据后，对不确定性的条件分布。

似然函数（Likelihood function）

似然函数（也称作似然），是一个关于统计模型参数的函数。也就是这个函数中自变量是统计模型的参数。对于观测结果

似然函数在统计推断中发挥重要的作用，因为它是关于统计参数的函数，所以可以用来对一组统计参数进行评估，也就是说在一组统计方案的参数中，可以用似然函数做筛选。

你会发现，“似然”也是一种“概率”。但不同点就在于，观察值

而似然是用于在给定一个观察值时，关于描述参数的函数。例如，如果一个硬币在10次抛落中正面均朝上，那硬币是均匀的（在抛落中，正反面的概率相等）概率是多少？这里用了概率这个词，但是实质上是“可能性”，也就是似然了。

后验概率（Posterior probability）

后验概率是关于随机事件或者不确定性断言的条件概率，是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布，并且是在基于实验或者调查所获得的信息上的条件分布。“后验”在这里意思是，考虑相关事件已经被检视并且能够得到一些信息。

后验概率是关于参数
- 我们用
- 鉴于分母是一个常数，上式可以表达成如下比例关系（而且这也是我们更多采用的形式）：
Gamma 函数

Gamma函数

Γ(x)=∫∞0tx−1e−tdt

Γ(x+1)=xΓ(x)

Γ(x)=(x−1)!

B(a,b)=Γ(a)Γ(b)Γ(a+b)

B(a,b)=∫10ta−1(1−t)b−1dt

Beta 分布

之所以提到Gamma函数，那是因为在定义Beta分布时我们会用到它。Beta分布的概率密度函数（PDF）定义为：

Beta(θ|a,b)=Γ(a+b)Γ(a)Γ(b)θa−1(1−θ)b−1

Beta(θ|a,b)=1B(a,b)θa−1(1−θ)b−1

E[θ]var[θ]=aa+b=ab(a+b)2(a+b+1)

共轭分布

我们还是从一个例子讲起。假如你有一个硬币，它有可能是不均匀的，所以投这个硬币有

但上面这种点估计的方法显然有漏洞，这种漏洞主要体现在实验次数比较少的时候，所得出的点估计结果可能有较大偏差。大数定理也告诉我们，在重复实验中，随着实验次数的增加，事件发生的频率才趋于一个稳定值。一个比较极端的例子是，如果你抛出五次硬币，全部都是Head。那么按照之前的逻辑，你将估计

前面介绍的贝叶斯定理或许可以帮助我们。在贝叶斯学派看来，参数

P(θ|X)=P(X|θ)P(θ)P(X)

现在我们已经估计好了

贝叶斯公式中分母上的

P(X)=∫10P(X|θ)P(θ)dθ

P(θ|X)=P(X|θ)P(θ)P(X)=P(X|θ)P(θ)∫10P(X|θ)P(θ)dθ=C52θ3(1−θ)21B(a,b)θa−1(1−θ)b−1∫10C52θ3(1−θ)21B(a,b)θa−1(1−θ)b−1dθ=θ(a+3−1)(1−θ)(b+2−1)∫10θ(a+3−1)(1−θ)(b+2−1)dθ=θ(a+3−1)(1−θ)(b+2−1)B(a+3,b+2)=Beta(θ|a+3,b+2)

因为观测前后，对

例如下图，仔细观察新得到的 Beta 分布，和上一图中的概率分布对比，发现峰值从0.8左右的位置移向了0.7左右的位置。这是因为新观测到的数据中，5次有3次是head（60%），这让我们觉得，

到此为止，我们终于可以引出“共轭性”的概念了！后验概率分布（正⽐于先验和似然函数的乘积）拥有与先验分布相同的函数形式。这个性质被叫做共轭性（Conjugacy）。共轭先验（conjugate prior）有着很重要的作用。它使得后验概率分布的函数形式与先验概率相同，因此使得贝叶斯分析得到了极大的简化。例如，二项分布的参数之共轭先验就是我们前面介绍的 Beta 分布。多项式分布的参数之共轭先验则是 Dirichlet 分布，而高斯分布的均值之共轭先验是另一个高斯分布。

总的来说，对于给定的概率分布

参考文献

[1] 以上内容部分引自“胖胖小龟宝”在http://bbs.pinggu.org/上的帖子

[2] Pattern Recognition And Machine Learning, Christopher Bishop

[3] 抛硬币的例子来自http://maider.blog.sohu.com/306392863.html
查看全文

相关阅读:
WebClient.UploadData 方法上载文件数据
 webclient提交并接受返回
 webClient上载下载
 斯特林反演与伯恩赛德引理
 Re0: 从 1 开始的省选前生活
 Windows 8将可能带动触摸屏的发展
 后PC时代的那些事
 关于ASP网页在IIS7.5下访问数失效
 Windows 要终结了？微软要推超级系统？
未来10年的开放式互联网

原文地址：https://www.cnblogs.com/guo-xiang/p/7786704.html

先验概率、后验概率以及共轭先验

贝叶斯定理：一个例子

先验概率（Prior probability）

似然函数（Likelihood function）

后验概率（Posterior probability）

Gamma 函数

Beta 分布

共轭分布

参考文献