极大似然估计
标签(空格分隔): 数学
最大似然估计(maximun likelihood estimate)是一种统计方法,它用来求一个样本集的相关概率密度函数的参数。这个方法最早是遗传学家以及统计学家哦罗纳德·费雪爵士在1912至1922年间开始使用的。
似然是对likelihood的一种较为贴切的文言文的翻译,似然用现代的中文来说即“可能性”。故而称之为“最大可能性估计”则更加通俗易懂。
最大似然估计(极大似然估计),通俗理解,就是利用已知的样本结果信息,反推最具有可能导致这些样本结果出现的模型参数值。换言之就是,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型一定,参数未知”。
当一个模型满足某个分布,他的参数值我通过极大似然估计法求出来的话。
假设有一个造币厂生成某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。即想知道抛这枚硬币,正反面出现的概率(记为( heta))各为多少?
这是一个统计问题,解决统计问题需要数据,于是我们拿了这枚硬币抛了诗词,得到的数据((x_0))是:反正正正正反正正正反。我们想求的正面概率( heta)是模型参数,而抛硬币模型我们可以假设是二项分布。
那么出现实验结果(x_0)的似然函数是多少呢?
注意、这是个只关于( heta)的函数,二最大似然估计,顾名思义,就是要最大化这个函数。我们可以画出他的图像。![此处输入图片的描述][1]
可以看出( heta=0.7)时,似然函数取得最大值。这样我们已经完成了对( heta)的最大似然估计。
即在已经知道抛十次硬币出现(x_0)这种情况下,硬币出现正面的概率也就是( heta),在最符合(x_0)的情况下( heta)的值最有可能是0.7。
极大似然估计:通过已知的模型获取模型参数。
最大后验概率
最大似然估计是求参数( heta),使似然函数(p(x_0| heta))最大。最大后验概率估计则是想求( heta)使(P(x_0| heta)P( heta))最大。求得的( heta)不单单让似然函数大,( heta)自己出现的先验概率也得大。
最大后验概率估计其实是在最大化(P( heta|x_0)=frac{P(x_0| heta)P( heta)}{P(x_0)}),不过因为(x_0)是确定的(即投出的“反正正正正反正正正反”),(P(x_0))是一个已知值,所以去掉了分母(P(x_0))(假设“投10次硬币”是一个实验,实验做了1000次,(x_0)出现了(n)次,则(P(x_0)=frac{n}{1000}),总之这是一个可以由数据集收集到的值)。最大化(P( heta|x_0))的意义也很明确,(x_0)应出现,要求( heta)取什么值使(P( heta|x_0))最大。顺带一提,(P( heta|x_0))即后验概率,这就是“最大后验概率估计”名字的由来。
联合概率
联合概率即:(P(A=a,B=b))。给定任何值(a)和(b),联合概率可以回答(A=a)和(B=b)同时满足的概率是多少?请注意,对于任何(a)和(b)的取值,(P(A=a,B=b)leq P(A=a))这点是确定的。
条件概率
(0leqfrac{P(A=a,B=b)}{A=a}leq1),这个比率就被称之为条件概率并用(P(B=b|A=a))表示:它是(A=a)一定发生的情况下(B=b)的概率。
贝叶斯定理
使用条件概率的定义,我们可以得出统计学中最有用和最著名的方程之一:Bayes's theoren它如下所示。通过构造,我们有乘法规则,(P(A,B)=P(B|A)P(A)):A,B同时发生的概率为A发生的概率乘以A一定发生情况下B发生的概率。根据对称性,这也适用于(P(A,B)=P(A|B)P(B))。假设(P(B)>0),求解其中一个条件变量,我们得到$$P(A|B)=frac{P(B|A)P(A)}{P(B)} ag2$$。
请注意,在这里我们使用更紧凑的表示法,其中(P(A,B))是一个联合分布,(P(A|B))是一个条件分布。这种分布可以在在给定值(A=a,B=b)上进行求值。
边际化
如果我们想从另一件事中推断一件事,但我们只知道相反方向的属性,比如因和果的时候,Bayes定理是非常有用的,正如我们将在本节后面看到的那样。为了能进行这项工作,我们需要一个重要操作是边际化。这项工作是从(P(A,B))中确定(P(B))的操作。我们可以看到,(B)的高铝相当于计算(A)d额所有可能选择,并将所有选择的联合概率聚合在一起。$$P(B)=sum_AP(A,b) ag3$$这也称为求和规则,边际化结果的概率或分布称为边际概率或边际分布。
[1]: https://x-powerblog.oss-cn-beijing.aliyuncs.com/图库/squares_plot.png