【转】LDA-linear discriminant analysis

zoukankan html css js c++ java

【转】LDA-linear discriminant analysis
分类问题也可以用降维来理解，比如一个

y=θTx

在计算出

那采用什么样的降维方式，可以尽量的在低维空间中保存原来数据在高维空间中的可分性（区分类别的特征）。一个常用的模型 linear discriminant analysis(LDA)就是用来做这个工作的，下面就具体的看一下LDA模型。

原理

LDA的基本原理就是最大化类间方差（between-class variance）和类内方差（within-class variance）的比率（注意这个variance用来理解，下面用到的定义实际上是variance的一个变形），使得降维后数据有最好的可分性。如果偷用软件工程里面用的术语的话，就是“高内聚，低耦合”，类内的数据内聚，方差小，而类间数据松散，方差大。通常来说，这要比只考虑类间的距离越大要好，如下图所示：

左边图只是考虑最大化每个类期望的最大距离，我们看到有很多点投影后重合了，丧失了标签信息；而右边是LDA投影，重合的点的数目减少了很多，能更好的保存标签信息。

模型

下面我们就来形式化这个过程，首先如何定义between-class variance和within-class variance？在Fisher提出的方法中，没有使用统计中标准的variance的定义，而是使用了一个称为scatter的概念，与variance时等价的，使用这个概念可能是为了后面的推导简洁。设数据集为

s=∑n=1N(xn−m)T(xn−m)

其中，

类内方差很容易形式化，可以直接使用scatter来定义，然后把所有类别的scatter连加；那么类间的方差如何定义才能很好的让类之间的数据分的更开呢？当然应该有很多的数学关系很描述，在LDA中使用了下面这种方式，计算每个类别的期望，求期望之间的距离。先从简单的两类情况开始，然后拓展到多类的情况。

两类

设数据集合为

mk=1Nk∑i∈Ckxi

m2−m1=θT(m2−m1)

其中，

S2k=∑i∈Ck(yi−mi)2

其中，

J(θ)=(m2−m1)2s21+s22

将上面的定义代入上式，可以得到式子:

maxargθJ(θ)=θTSBθθTSWθ

其中，

SB=(m2−m1)(m2−m1)T;SW=S1+S2

其中,

(θTSBθ)SWθ=(θTSWθ)SBθ

由于投影操作，我们只关心

θ∗∝S−1W(m2−m1)

这个式子称为Fisher’s linear discriminant[1936],尽管这个式子不是一个判别式，只是选择了投影方向,不过只要我们选择一个阈值，然后就可以根据这个阈值进行分类了。(ps:使用求解generalized eigenvalue problem的方法求解导数为零的等式，也可以得到这个判别式)

多类

在多类问题时，将

y=ΘTx

可以参照PCA文章中提到投影公式，这里

设数据集合为

withinin-class scatter 与二类时的定义一样，如下表示:

SW=∑k=1K∑i∈Ck(xi−mk)(xi−mk)T

between-class scatter的定义，这里我们根据PRML里面论述的，首先定义一个

ST=∑n=1N(xn−m)(xn−m)Tm=1N∑n=1Nxn=1N∑k=1KNkmk

所以得到：

SB=======ST−SW∑n=1N(xn−m)(xn−m)T−∑k=1K∑i∈Ck(xi−mk)(xi−mk)T∑k=1K∑i∈Ck(xi−m)(xi−m)T−∑k=1K∑i∈Ck(xi−mk)(xi−mk)T∑k=1K∑i∈Ck{(xi−m)(xi−m)T−(xi−mk)(xi−mk)T}∑k=1K{∑i∈Ck−ximT+∑i∈Ck−mxTi+NkmmT+∑i∈CkximTk+∑i∈CkmkxTi−NkmkmTk}∑k=1K{−NkmkmT−mNkmk+NkmmT+NkmkmTk+Nkmkmk−NkmkmTk}∑k=1KNk(mk−m)(mk−m)T

这样我们就可以类比得到在投影空间的between-class scatter与within-class scatter：

S˜W=∑k=1K∑i∈Ck(yi−mk)(yi−mk)TS˜B=ST−SW=∑k=1KNk(mk−m)(mk−m)T

这样就可以得到目标函数，由于

maxargΘJ(Θ)=|S˜B||S˜W|

类似在二类推到中的式子，可以得出：

maxargΘJ(Θ)=|S˜B||S˜W|=|ΘTSBΘ||ΘTSWΘ|

然后优化上面的函数(很直接，但是这里就不推导了，可能比较麻烦)，可以得出结论，投影矩阵由

从上图中也可以看到，使用PCA投影后，数据在黑色的直线上基本不可分，而使用LDA投影，则可分性要比PCA好很多，这也说明了LDA在降维过程中保留了标签信息。

需要注意的地方是：
1. 由于
2. LDA也可以从normal class Density 通过最大似然估计得出。
模型的局限性，主要体现在下面两个方面：
1. 根据上面的分析，LDA投影后最多只能保留
2. LDA本是参数估计方法，假设分布符合单峰的高斯分布，对于数据集合不符合的情况，没法保留标签信息。
3. 对那些由方差，而不是均值来区分的数据来说，LDA同样也没法处理，如下图所示:
应用

在人脸识别中，使用LDA降维，是一种常用的方法，形成的特征向量，称为fisher-face；此外，LDA也可以用在破产预测等方面。

引用：

[1]prml

[2]http://research.cs.tamu.edu/prism/lectures/pr/pr_l10.pdf

[3]http://www.intechopen.com/books/speech-technologies/nonlinear-dimensionality-reduction-methods-for-use-with-automatic-speech-recognition

[4]http://en.wikipedia.org/wiki/Linear_discriminant_analysis

参看http://webdancer.is-programmer.com/posts/37867.html
查看全文

相关阅读:
MSSQL锁定1.Isolation level (myBased)
等待状态CXPACKET分析
 拒绝了对对象 'sp_sdidebug'（数据库 'master'，所有者 'dbo'）的 EXECUTE 权限
 Oracle CBO 统计信息的收集与执行计划的选择
 Oracle 11gR1 on Win7
读书笔记 <<你的知识需要管理>>
ORA01555 总结
 Buffer Cache Management
如何选择合适的索引
 书评 <SQL Server 2005 Performance Tuning性能调校> 竟然能够如此的不用心........

原文地址：https://www.cnblogs.com/zhanjxcom/p/4161926.html

【转】LDA-linear discriminant analysis

原理

模型

应用