GMM高斯混合模型学习笔记（EM算法求解）

zoukankan html css js c++ java

GMM高斯混合模型学习笔记（EM算法求解）

    提出混合模型主要是为了能更好地近似一些较复杂的样本分布，通过不断添加component个数，能够随意地逼近不论什么连续的概率分布。所以我们觉得不论什么样本分布都能够用混合模型来建模。由于高斯函数具有一些非常有用的性质。所以高斯混合模型被广泛地使用。

    GMM与kmeans相似，也是属于clustering，不同的是。kmeans是把每一个样本点聚到当中一个cluster，而GMM是给出这些样本点到每一个cluster的概率。每一个component就是一个聚类中心。

    GMM(Gaussian Mixture Model)高斯混合模型，由K个不同的Gaussian线性组合而成，每一个Gaussian是混合模型的一个component，GMM的概率密度函数例如以下：

$p (x) = \sum k = 1 K p (k) (x | k) = \sum k = 1 K π k � (x | μ k, \sum k)$
    依据上式。从GMM中生成一个样本点x分两步：
    1，从K个component中随机的选择一个
    2。从该component中选择一个点

    參数说明：N个样本点。K个component，μk,∑k 是第k个component的均值和协方差矩阵，是模型參数，是须要预计的。
πk是mixing coefficient，表示第k个component被选中的概率。πk=1N∑Nn=1znk，也是模型參数。须要预计。N是高斯（正态）分布。

    对一个样本集建立高斯混合模型的过程，就是依据已知样本集X反推高斯混合模型的參数(μ,∑,π)，这是一个參数预计问题。首先想到用最大似然的方法求解，也就是，要确定參数π,μ,∑使得它所确定的概率分布生成这些样本点的概率最大。这个概率也就是似然函数，例如以下：

$p (x) = \prod n = 1 N p (x i)$
而一般对于单个样本点其概率较小。多个相乘后更小，easy造成浮点数下溢，所以通常是对似然函数求log，变成加和形式：
$\sum i = 1 N l n p (x i)$
    这个叫做log似然函数，目标是要最大化它。用log似然函数对參数分别求偏导。令偏导等于0，可求解得參数。
    然而。GMM的log似然函数是例如以下形式：
$l n p (X) = \sum i = 1 N l n [\sum k = 1 K π k � (x i | μ k, \sum k)]$
    能够看到对数中有求和，直接求导求解将导致一系列复杂的运算，故考虑使用EM算法。（详细思路见上一篇：EM算法学习笔记）

    考虑GMM生成一个样本点的过程，这里对每一个xi引入隐变量z，z是一个K维向量，如果生成xi时选择了第k个component，则zk=1，其它元素都为0。∑Kk=1zk=1.
    如果z是已知的。则样本集变成了{X,Z}，要求解的似然函数变成了：

$p (X, Z | μ, \sum, π) = \prod n = 1 N \prod k = 1 K π z n k k � (x n | μ k, \sum k) z n k$
log似然函数为：
$l n p (X, Z | μ, \sum, π) = \sum n = 1 N \sum k = 1 K z n k [l n π k + l n � (x n | μ k, \sum k)] . (*)$
    能够看到，这次ln直接对Gaussian作用，求和在ln外面，所以能够直接求最大似然解了。

1,初始化一组模型參数π,μ,∑
2,E-step

    然而。其实z是不知道的。我们仅仅是如果z已知。
而z的值是通过后验概率观測。所以这里考虑用z值的期望在上述似然函数中取代z。
    对于一个样本点x：

$p (z) = \prod k = 1 K π z k k$
$p (x | z k = 1) = � (x | μ k, \sum k)$
$p (x | z) = \prod k = 1 K � (x | μ k, \sum k) z k$
$p (x) = \sum z p (z) p (x | z) = \sum k = 1 K π k � (x | μ k, \sum k)$
    后验概率（固定μ,∑,π）：
$p (z | x, μ, \sum, π) = p ( x | z ) p ( z ) p ( x ) 正比于 \prod n = 1 N \prod k = 1 K [π k � (x n | μ k, \sum k)] z n k$
    由于{zn}之间是相互独立的。
    计算z期望γ(znk)（z向量仅仅有一个值取1，其余为0）：
$γ (z n k) = E [z n k] = 0 * p (z n k = 0 | x n) + 1 * p (z n k = 1 | x n) = p (z n k = 1 | x n) = p ( z n k = 1 ) p ( x n | z n k = 1 ) p ( x n ) = π k � ( x | μ k , \sum k ) \sum K j = 1 π j � ( x | μ j , \sum j ) .$

    将z值用期望取代。则待求解的log似然函数(*)式变为：

$E z [l n p (X, Z | μ, \sum, π)] = \sum n = 1 N \sum k = 1 K γ (z n k) [l n π k + l n � (x n | μ k, \sum k)] .$

3,M-step

    如今能够最大化似然函数求解參数了，首先对μ求偏导，令偏导等于0。可得：

$\sum n = 1 N \sum k = 1 K γ (z n k) \sum k (x n - μ k) = 0$

$μ k = 1 N k \sum n = 1 N γ (z n k) x n ，其中 N k = \sum n = 1 N γ (z n k) .$
Nk 是“the effective number of points assigned to cluster k”.
    再对∑k求偏导，令偏导等于0，可得：
$\sum k = 1 N k \sum n = 1 N γ (z n k) (x n - μ k) (x n - μ k) T$

    接下来还需求解π。注意到π需满足∑Kk=1πk=1。所以这是一个带等式约束的最大值问题。使用拉格朗日乘数法。
    构造拉格朗日函数：

$L = l n p (X | π, μ, \sum) + λ (\sum k = 1 K π k - 1) .$
    对π求导，令导数为0：
$\sum n = 1 N � ( x | μ k , \sum k ) \sum K j = 1 π j � ( x | μ j , \sum j ) + λ = 0$
    两边同乘πk得：
$\sum n = 1 N γ (z n k) + λ π k = 0$
$N k + λ π k = 0$
    两边对k求和：
$\sum k = 1 K N k + \sum k = 1 K λ π k = 0$
$N + λ = 0$
    可得：λ=−N
    代入可得：πk=NkN.

4,检查是否收敛
    反复E-step和M-step两步。直到收敛，就可以求得一个局部最优解。

GMM的建模步骤例如以下图（k=2,高斯分布是蓝色和红色圈）：

主要參考资料：
《Pattern Recognization and Machine Learning》
帮助理解：
http://blog.pluskid.org/?p=39

查看全文

相关阅读:
hashlib加密算法
 gc 模块常用函数
 functools函数中的partial函数及wraps函数
 ctime使用及datetime简单使用
 __new__方法理解
 __getattribute__小例子
 == 和 is 的区别
 线程_可能发生的问题
 线程_进程池
 【网站】简单通用微信QQ跳转浏览器打开代码

原文地址：https://www.cnblogs.com/mfrbuaa/p/5111355.html