浅谈EM算法的两个理解角度

zoukankan html css js c++ java

浅谈EM算法的两个理解角度
http://blog.csdn.net/xmu_jupiter/article/details/50936177

最近在写毕业论文，由于EM算法在我的研究方向中经常用到，所以把相关的资料又拿出来看了一下，有了一些新的理解与感悟。在此总结一下。

EM算法即“期望极大算法”。学过机器学习的朋友都知道EM算法分两步：E步求期望，M步求极大。但是期望是求谁的期望，极大是求谁的极大呢？这里面其实有两种解读角度。

“通俗”角度

通俗角度的话，求极大肯定是求似然函数的极大了，而且一般都是对数似然。我们一般解决模型参数求解问题，都是在给定数据的情况下，求解使得似然函数最大的参数的取值。用公式表示就是：

θ^=arg maxθ log P(X|θ)

通常的做法是对似然函数求偏导，然后令偏导等于零，参数取得的数值就是近似最优值。但是，有些含有隐变量的模型没办法直接进行似然函数的偏导，但是如果假设已经知道隐变量的值，就可以将似然函数简化进行下一步的求偏导。

因此，我们需要引入一个隐变量，求这个隐变量的期望就成了这种理解角度下E步骤。然后将隐变量的期望代入到经过隐变量改写的对数似然函数中，就可以按照通常的极大似然估计求解参数了。不过需要不断迭代才能达到近似最优。

总结起来，这种角度的EM算法框架如下：

loop
- E-step：求在观测数据的前提下隐变量的期望；
- M-step：求经过隐变量改写的似然函数的极大；
end

这种角度的好处是由一般的极大似然估计自然地引入到EM方法，比较容易理解；但是缺点是一般很难写出引入隐变量的似然函数的改写。实际上，这种改写很多情况下是依据EM算法的另一个理解角度而直接写出来的。

“正式”角度

看过EM算法推导过程的朋友应该都知道，有一个概念叫做“Q函数”；还有EM算法是通过不断求解下界的极大化逼近求解对数似然函数的极大化。那么，这个Q函数是怎么来的呢？EM算法是怎么不断求解下界的极大化呢？

EM算法通过迭代逐步近似极大化

L(θ)−L(θ(i))

然后，利用Jensen不等式得到其下界：

因此，任何可以使

从形式上看，Q函数是完全数据的对数似然函数关于在给定观测数据和当前参数下对未观测数据的条件概率分布的期望。

总结起来，这种角度的EM算法框架如下：

loop
- E-step：求Q函数；
- M-step：求使Q函数极大的当前参数的取值；
end

这里面有几个细节需要说明一下;

细节一：

在使用Jensen不等式的时候，需要假设隐变量服从某种形式的概率分布，才可以将推导过程的一部分看成是期望的表达形式从而应用Jensen不等式。然而这个分布不是随便指定的。我们令Jensen不等式取等号的时候，可以计算出这个分布其实就是：已知观测数据的隐变量的后验概率分布。由于求Q函数需要先求出隐变量的后验概率的期望，因此，这就可以解释为什么EM算法的“通俗”理解角度的E步骤是求隐变量的期望了。

细节二：Q函数与完全数据的对数似然函数的关系

有时候在用EM算法解决某个具体问题的时候，会发现M步骤极大化的居然是完全数据的对数似然函数。这是因为，Q函数虽然是完全数据的对数似然函数的某种期望，但是求这个期望的过程有时其实就是将隐变量的后验概率的期望代入就可以了。因此，本质上我们其实还是在求Q函数的极大。
查看全文

相关阅读:
（jmeter笔记）jmeter远程启用服务器（分布式）
（jmeter笔记）jmeter打印日志
 （jmeter笔记）Jmeter正则表达式提取器获取Response hearders
css3实现好看的边框效果
 简单递归写侧边菜单栏
 css3的transform-origin配合scale，控制动画，实现各种hover效果
 浅谈jQuery的promise
tips07-encodeURI()的使用
 weui 的使用方法
 git 合并分支的时候会遇到的问题

原文地址：https://www.cnblogs.com/bnuvincent/p/6421781.html

最新文章
排序算法
 PAT_B 刷题总结
 博文收藏
 论文相关
 第1章大数据概述
 Numpy库入门
 问题收录
 秋季在校课表
 Designing Data-Intensive Applications
圆周率的计算

浅谈EM算法的两个理解角度

“通俗”角度

“正式”角度

细节一：

细节二：Q函数与完全数据的对数似然函数的关系