理解先验概率后验概率似然函数

zoukankan html css js c++ java

理解先验概率后验概率似然函数
理解一下这些基础知识

先验概率（prior probability）

是指根据以往经验和分析得到的概率，如全概率公式，它往往作为 "由因求果" 问题中的 "因" 出现的概率。

在贝叶斯统计中，先验概率分布，即关于某个变量

先验概率仅仅依赖于主观上的经验估计，也就是事先根据已有的知识的推断。例如，

后验概率(Posterior probability)

后验概率是指在得到 “结果” 的信息后重新修正的概率，是 “执果寻因” 问题中的 "果"。

事情还没有发生，要求这件事情发生的可能性的大小，是先验概率。事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小，是后验概率。
后验概率是关于随机事件或者不确定性断言的条件概率，是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布，并且是在基于实验或者调查所获得的信息上的条件分布。“后验” 在这里意思是，考虑相关事件已经被检视并且能够得到一些信息。

后验概率是关于参数

我们用

举个例子：

比如，你刚去北京的时候，查了下北京历年来的天气情况，北京下雨的概率是多少，你就经验性的给了一个。这就是先验。
等你今天要出门的时候，你发现下雨了，于是你开始想，下雨前，有没有打雷尼？你开始猜测有多大的可能性打雷了，既然已经有了下雨的结果，对一些征兆发生的可能性做预测，这就是似然概率。
等下了班回去，你发现居然又打雷了，你开始想会不会下雨啊，于是根据观察数据，预测结果的概率，也就是后验。

似然函数likelihood (function)

区别：

先看似然函数的定义，它是给定联合样本值 $extbf{x}$ 下关于 (未知) 参数 $heta$ 的函数： $L( heta | extbf{x}) = f( extbf{x} | heta)$

这里的小 $extbf{x}$ 是指联合样本随机变量 $extbf{X}$ 取到的值，即 $extbf{X} = extbf{x}$ ；这里的 $heta$ 是指未知参数，它属于参数空间；

这里的 $f( extbf{x}| heta)$ 是一个密度函数，特别地，它表示 (给定) $heta$ 下关于联合样本值 $extbf{x}$ 的联合密度函数。

所以从定义上，似然函数和密度函数是完全不同的两个数学对象：前者是关于 $heta$ 的函数，后者是关于 $extbf{x}$ 的函数。所以这里的等号 $=$ 理解为函数值形式的相等，而不是两个函数本身是同一函数 (根据函数相等的定义，函数相等当且仅当定义域相等并且对应关系相等)。

联系：

如果 $extbf{X}$ 是离散的随机向量，那么其概率密度函数 $f( extbf{x} | heta)$ 可改写为 $f( extbf{x} | heta) = mathbb{P}_ heta( extbf{X} = extbf{x})$ ，即代表了在参数 $heta$ 下随机向量 $extbf{X}$ 取到值 $extbf{x}$ 的可能性；并且，如果我们发现

$L( heta_1 | extbf{x} ) = mathbb{P}_{ heta_1}( extbf{X} = extbf{x}) > mathbb{P}_{ heta_2}( extbf{X} = extbf{x}) = L( heta_2 | extbf{x})$

那么似然函数就反应出这样一个朴素推测：在参数 $heta_1$ 下随机向量 $extbf{X}$ 取到值 $extbf{x}$ 的可能性大于 在参数 $heta_2$ 下随机向量 $extbf{X}$ 取到值 $extbf{x}$ 的可能性。换句话说，我们更有理由相信 (相对于 $heta_2$ 来说) $heta_1$ 更有可能是真实值。这里的可能性由概率来刻画。

连续情况也差不多，如果 $extbf{X}$ 是连续的随机向量，那么其密度函数 $f( extbf{x} | heta)$ 本身（如果在 $extbf{x}$ 连续的话）在 $extbf{x}$ 处的概率为 0，为了方便考虑一维情况：给定一个充分小 $epsilon > 0$ ，那么随机变量 $X$ 取值在 $(x - epsilon, x + epsilon)$ 区间内的概率即为

$mathbb{P}_ heta(x - epsilon < X < x + epsilon) = int_{x - epsilon}^{x + epsilon} f(x | heta) dx approx 2 epsilon f(x | heta) = 2 epsilon L( heta | x)$

并且两个未知参数的情况下做比就能约掉 $2epsilon$ ，所以和离散情况下的理解一致，只是此时似然所表达的那种可能性和概率 $f(x| heta) = 0$ 无关。

综上，概率 (密度) 表达给定 $heta$ 下样本随机向量 $extbf{X} = extbf{x}$ 的可能性，而似然表达了给定样本 $extbf{X} = extbf{x}$ 下参数 $heta_1$ (相对于另外的参数 $heta_2$ ) 为真实值的可能性。我们总是对随机变量的取值谈概率，而在非贝叶斯统计的角度下，参数是一个实数而非随机变量，所以我们一般不谈一个参数的概率。

最后我们再回到 $L( heta | extbf{x}) = f( extbf{x} | heta)$ 这个表达。首先我们严格记号，竖线 $|$ 表示条件概率或者条件分布，分号 $;$ 表示把参数隔开。所以这个式子的严格书写方式是 $L( heta | extbf{x}) = f( extbf{x} ; heta)$ 因为 $heta$ 在右端只当作参数理解。

L(θ|x)=f(x|θ)
这个等式表示的是对于事件发生的两种角度的看法。其实等式两边都是表示的这个事件发生的概率或者说可能性。

再给定一个样本 x 后，我们去想这个样本出现的可能性到底是多大。统计学的观点始终是认为样本的出现是基于一个分布的。那么我们去假设这个分布为 f，里面有参数 theta。对于不同的 theta，样本的分布不一样。

f(x|θ) 表示的就是在给定参数 theta 的情况下，x 出现的可能性多大。L(θ|x) 表示的是在给定样本 x 的时候，哪个参数 theta 使得 x 出现的可能性多大。

所以其实这个等式要表示的核心意思都是在给一个 theta 和一个样本 x 的时候，整个事件发生的可能性多大。

参考如何理解似然函数?
查看全文

相关阅读:
NumPy 字符串函数
 NumPy 位运算
 Numpy 数组操作
 最小二乘法的原理与计算
 NumPy 迭代数组
 Making AJAX Applications Crawlable
mac, start sublime from terminal
Speed Up Your WordPress Site
To Support High-Density Retina Displays
HTML5 tricks for mobile