zoukankan      html  css  js  c++  java
  • 理解先验概率 后验概率 似然函数

    理解一下这些基础知识

    先验概率(prior probability)

    是指根据以往经验和分析得到的概率,如全概率公式,它往往作为 "由因求果" 问题中的 "因" 出现的概率。

    在贝叶斯统计中,先验概率分布,即关于某个变量 X 的概率分布,是在获得某些信息或者依据前,对 X 之不确定性所进行的猜测。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。

    先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断。例如, X 可以是投一枚硬币,正面朝上的概率,显然在我们未获得任何其他信息的条件下,我们会认为 P(X)=0.5;再比如上面例子中的,P(G)=0.4

    后验概率(Posterior probability)

    后验概率是指在得到 “结果” 的信息后重新修正的概率,是 “执果寻因” 问题中的 "果"。
    事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。

    后验概率是关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布,并且是在基于实验或者调查所获得的信息上的条件分布。“后验” 在这里意思是,考虑相关事件已经被检视并且能够得到一些信息。

    后验概率是关于参数 θ 在给定的证据信息 X 下的概率,即 P(θ|X) 。若对比后验概率和似然函数,似然函数是在给定参数下的证据信息 X 的概率分布,即 P(X|θ) 。

      我们用 P(θ) 表示概率分布函数,用 P(X|θ) 表示观测值 X 的似然函数。后验概率定义为 P(θ|X)=P(X|θ)P(θ) / P(X),注意这也是贝叶斯定理所揭示的内容。

     举个例子:

    比如,你刚去北京的时候,查了下北京历年来的天气情况,北京下雨的概率是多少,你就经验性的给了一个。这就是先验。
    等你今天要出门的时候,你发现下雨了,于是你开始想,下雨前,有没有打雷尼?你开始猜测有多大的可能性打雷了,既然已经有了下雨的结果,对一些征兆发生的可能性做预测,这就是似然概率。
    等下了班回去,你发现居然又打雷了,你开始想会不会下雨啊,于是根据观察数据,预测结果的概率,也就是后验。

    似然函数likelihood (function)

    区别:

    先看似然函数的定义,它是给定联合样本值	extbf{x}下关于 (未知) 参数	heta 的函数:L(	heta | 	extbf{x}) = f(	extbf{x} | 	heta)

    这里的小	extbf{x}是指联合样本随机变量	extbf{X}取到的值,即	extbf{X} = 	extbf{x};这里的	heta是指未知参数,它属于参数空间;

    这里的f(	extbf{x}|	heta)是一个密度函数,特别地,它表示 (给定)	heta下关于联合样本值	extbf{x}的联合密度函数。 

    所以从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于	heta的函数,后者是关于	extbf{x}的函数。所以这里的等号= 理解为函数值形式的相等,而不是两个函数本身是同一函数 (根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。

    联系:

    如果	extbf{X}是离散的随机向量,那么其概率密度函数 f(	extbf{x} | 	heta)可改写为 f(	extbf{x} | 	heta) = mathbb{P}_	heta(	extbf{X} = 	extbf{x}),即代表了在参数	heta下随机向量	extbf{X}取到值	extbf{x}可能性;并且,如果我们发现

    L(	heta_1 | 	extbf{x} ) = mathbb{P}_{	heta_1}(	extbf{X} = 	extbf{x}) > mathbb{P}_{	heta_2}(	extbf{X} = 	extbf{x}) = L(	heta_2 | 	extbf{x})

    那么似然函数就反应出这样一个朴素推测:在参数	heta_1下随机向量	extbf{X}取到值	extbf{x}可能性大于 在参数	heta_2下随机向量	extbf{X}取到值	extbf{x}可能性。换句话说,我们更有理由相信 (相对于	heta_2来说)	heta_1 更有可能是真实值。这里的可能性由概率来刻画。

    连续情况也差不多,如果	extbf{X}是连续的随机向量,那么其密度函数 f(	extbf{x} | 	heta)本身(如果在	extbf{x}连续的话)在	extbf{x}处的概率为 0,为了方便考虑一维情况:给定一个充分小epsilon > 0,那么随机变量X取值在(x - epsilon, x + epsilon)区间内的概率即为

    mathbb{P}_	heta(x - epsilon < X < x + epsilon) = int_{x - epsilon}^{x + epsilon} f(x | 	heta) dx approx 2 epsilon f(x | 	heta) = 2 epsilon L(	heta | x)

    并且两个未知参数的情况下做比就能约掉2epsilon,所以和离散情况下的理解一致,只是此时似然所表达的那种可能性概率f(x|	heta) = 0无关。

    综上,概率 (密度) 表达给定	heta下样本随机向量	extbf{X} = 	extbf{x}可能性,而似然表达了给定样本	extbf{X} = 	extbf{x}下参数	heta_1(相对于另外的参数	heta_2) 为真实值的可能性。我们总是对随机变量的取值谈概率,而在非贝叶斯统计的角度下,参数是一个实数而非随机变量,所以我们一般不谈一个参数的概率

    最后我们再回到L(	heta | 	extbf{x}) = f(	extbf{x} | 	heta)这个表达。首先我们严格记号,竖线|表示条件概率或者条件分布,分号;表示把参数隔开。所以这个式子的严格书写方式是L(	heta | 	extbf{x}) = f(	extbf{x} ; 	heta)因为	heta在右端只当作参数理解。


    L(θ|x)=f(x|θ)
    这个等式表示的是对于事件发生的两种角度的看法。其实等式两边都是表示的这个事件发生的概率或者说可能性。
    再给定一个样本 x 后,我们去想这个样本出现的可能性到底是多大。统计学的观点始终是认为样本的出现是基于一个分布的。那么我们去假设这个分布为 f,里面有参数 theta。对于不同的 theta,样本的分布不一样。
    f(x|θ) 表示的就是在给定参数 theta 的情况下,x 出现的可能性多大。L(θ|x) 表示的是在给定样本 x 的时候,哪个参数 theta 使得 x 出现的可能性多大。
    所以其实这个等式要表示的核心意思都是在给一个 theta 和一个样本 x 的时候,整个事件发生的可能性多大。
  • 相关阅读:
    HDU1879 kruscal 继续畅通工程
    poj1094 拓扑 Sorting It All Out
    (转)搞ACM的你伤不起
    (转)女生应该找一个玩ACM的男生
    poj3259 bellman——ford Wormholes解绝负权问题
    poj2253 最短路 floyd Frogger
    Leetcode 42. Trapping Rain Water
    Leetcode 41. First Missing Positive
    Leetcode 4. Median of Two Sorted Arrays(二分)
    Codeforces:Good Bye 2018(题解)
  • 原文地址:https://www.cnblogs.com/dahu-daqing/p/8321312.html
Copyright © 2011-2022 走看看