什么是高斯混合模型
高斯混合模型(GMM)认为,一个数据分布可以有几个高斯分布组合而成。
参考博客:| 知乎 |
高斯混合模型聚类
对于一个多类别数据集合,所有类别各自的数据分布的组合就是整体数据分布。这非常符合高斯混合模型理论。我们可以用一个生活化一点的例子来说明高斯混合模型聚类。假设有一堆颜色相近的水果,它们来自橘子、橙子和小西柚(颜色很相近,都是黄颜色)。我们用[黄颜色深浅程度-水果数量]来表示数据分布。对于每一类水果,它们也有各自的[黄颜色深浅程度-水果数量]。高斯混合模型聚类的任务就是通过颜色深浅来找出不同类别水果的[黄颜色深浅程度-水果数量]分布。
基本步骤
-
初始化k个高斯模型的参数(一般 均值、方差和组合权重)。
-
EM算法更新权重。 EM算法讲解-悉尼科技大学-徐亦达老师
EM算法笔记
主要思想:引入隐变量让 最大化似然 在求导时候好求解。下面是我的暂时理解,有可能不对,待更新。
- EM中,隐变量 ((z_{1}, ..., z_{i}, ..., z_{N})) 分布的参数是未知的,但因为最终目标是迭代近似,在迭代中,可以把隐变量当成常量。
- 通常隐变量 (z_{i}) 属于某个分布。
实验的例子
延伸
待学习资料
GMM与EM算法的Python实现 |