Machine Learning --- GMM & QDALDA & EM algorithm

zoukankan html css js c++ java

Machine Learning --- GMM & QDALDA & EM algorithm

一、单高斯模型GSM（多元正态分布MVN）

当特征为2D时：

马氏距离=翻转坐标系下的欧式距离：

高斯分布证明（极大熵）：

[例]拉格朗日乘子法对q求导：

服从指数分布族：

证毕。

二、高斯混合模型GMM（多个单高斯的线性叠加，可逼近任意分布，每个高斯是一个聚类中心）

目标求三个参数：

(1)当样本类别已知时（简单问题）：经验公式求解

应用：高斯判别分析QDA/LDA（产生式分类器）

类先验为：

类条件为：

当协方差阵为对角阵时（条件独立），即朴素贝叶斯Navie Bayes（典型的产生式分类器）。

决策规则（当各类协方差阵Σ一致时QDA转变为LDA）：

LDA与QDA图例如下：

(2)当样本类别未知时（实际问题）：EM法聚类

EM算法过程：

1、用随机函数初始化K个高斯分布的参数，同时保证：

2、依次取观察数据x，比较x在K个高斯函数中概率的大小，把x归到概率最大的那一类。

3、用最大似然估计，找到使观察数据x的概率最大，因为已经在第2步中分好类了，所以即简单问题的求法。

4、返回第2步用第3步新得到的参数来对观察数据x重新分类，直到下式概率（最大似然函数）达到最大。

EM实例如下：

三、两类LDA & FLDA（两个单高斯模型的分类）

1. 两类LDA（假设两类的协方差矩阵Σ相同）

决策函数等价于sigmoid函数：p(y=1|x)=sigm(w^Tx)

2.FLDA（将数据投影到保持分类信息的方向，降维后线性可分）

决策函数：p(y=1|x)=sigm(w^Tx)

目标：类间散度尽量大，类内散度尽量小。最大化：

类间散度矩阵：

类内散度矩阵：

为了最大化J(w)：

若Sw可逆，则可转化为一般特征值问题：

若只关心方向，去掉缩放因子后：

当协方差矩阵各向同性时，w与类中心向量平行（同LDA）。

注：PCA也可通过特征值分解进行降维，把数据投影到特征值（方差）最大的方向，但降维后数据不一定可分。

查看全文

相关阅读:
Notes 20180308 : 语句
 Knowledge Point 20180308 拔下forEach的外衣
 Notes 20180307 : 运算符
 Notes 20180306 : 变量与常量
 Knowledge Point 20180305 Java程序员详述编码Unicode
Knowledge Point 20180305 十进制转换成二进制浮点数
 Knowledge Point 20180305 补位的两种方式
 老式浏览器支持html5与css3
浏览器内核总结
 koa常用api文档整理

原文地址：https://www.cnblogs.com/jizhiyuan/p/3427287.html