特征选择（二）- 聚类变换

zoukankan html css js c++ java

特征选择（二）- 聚类变换

上一讲说到，各个特征（各个分量）对分类来说，其重要性当然是不同的。
舍去不重要的分量，这就是降维。

聚类变换认为：重要的分量就是能让变换后类内距离小的分量。

类内距离小，意味着抱团抱得紧。

但是，抱团抱得紧，真的就一定容易分类么？

如图1所示，根据聚类变换的原则，我们要留下方差小的分量，把方差大（波动大）的分量丢掉，所以两个椭圆都要向y轴投影，这样悲剧了，两个重叠在一起，根本分不开了。而另一种情况却可以这么做，把方差大的分量丢掉，于是向x轴投影，很顺利就能分开了。因此，聚类变换并不是每次都能成功的。

图1

摧枯拉朽的K-L变换

K-L变换是理论上“最好”的变换：是均方误差（MSE，MeanSquare Error）意义下的最佳变换，它在数据压缩技术中占有重要地位。

聚类变换还有一个问题是，必须一类一类地处理，把每类分别变换，让它们各自抱团。

K-L变换要把所有的类别放在一起变换，希望通过这个一次性的变换，让它们分的足够开。

K-L变换认为：各类抱团紧不一定好区分。目标应该是怎么样让类间距离大，或者让不同类好区分。因此对应于2种K-L变换。

其一：最优描述的K-L变换（沿类间距离大的方向降维）

首先来看个二维二类的例子，如图2所示。

图2

$Pleft( {{omega _1}} ight) = Pleft( {{omega _2}} ight) = 0.5$

如果使用聚类变换， ${Phi _1}$ 方向是方差最小的方向，因此降维向 ${Phi _1}$ 方向投影，得到2类之间的距离即为2条红线之间的距离，但是这并不是相隔最远的投影方向。将椭圆投影到 ${P_{K - L}}$ 方向，得到2类之间的距离为2条绿线之间的距离。这个方向就是用自相关矩阵的统计平均得到的特征向量 ${Phi _{K - L}}$

设共有M个类别，各类出现的先验概率为

$P({omega _i}),i = 1,2, cdots M$

以 ${x_i}$ 表示来自第i类的向量。则第i类集群的自相关矩阵为：

${R_i} = Eleft{ {{x_i}{x_i}^T} ight}$

混合分布的自相关矩阵R是：

$R = sumlimits_{i = 1}^M {P({w_i}){R_i}} = sumlimits_{i = 1}^M {P({w_i})Eleft{ {{x_i}{x_i}^T} ight}}$

然后求出R的特征向量和特征值：

将特征值降序排列（注意与聚类变换区别）

为了降到m维，取前m个特征向量，构成变换矩阵A

$A = {left( egin{array}{l}{Phi _1}^T\ vdots \{Phi _m}^Tend{array} ight)_{m imes n}} Rightarrow y = {A_{m imes n}}{x_{n imes 1}}$

以上便完成了最优描述的K-L变换。

为什么K-L变换是均方误差（MSE，MeanSquare Error）意义下的最佳变换？

$egin{array}{l}{y^{(n)}} = {Phi ^T}x\x = Phi cdot {y^{(n)}} = sumlimits_{j = 1}^n {{y_j}^{(n)}{Phi _j}} end{array}$

其中 ${y_j}^{(n)}$ 表示n维向量y的第j个分量， ${Phi _j}$ 表示第个特征分量。

引入的误差

$Delta x = x - hat x = sumlimits_{j = m + 1}^n {{y_j}^{(n)}{Phi _j}}$

均方误差为

$egin{array}{l}{e^2}(m) = Eleft{ {{{left| {Delta x} ight|}^2}} ight} = Eleft{ {{{[Delta x]}^T}[Delta x]} ight} = Eleft{ {[sumlimits_{j = m + 1}^n {{y_j}^{(n)}{Phi _j}^T} ][sumlimits_{k = m + 1}^n {{y_k}^{(n)}{Phi _k}} ]} ight}\ = sumlimits_{j = m + 1}^n {Eleft{ {{{[{y_j}^{(n)}]}^2}} ight}} = sumlimits_{j = m + 1}^n {Eleft{ {{{[{Phi _j}^Tx]}^2}} ight}} = sumlimits_{j = m + 1}^n {{Phi _j}^TR{Phi _j}} = sumlimits_{j = m + 1}^n {{lambda _j}} end{array}$

从m+1开始的特征值都是最小的几个，所以均方误差得到最小。

以上方法称为最优描述的K-L变换，是沿类间距离大的方向降维，从而均方误差最佳。

本质上说，最优描述的K-L变换扔掉了最不显著的特征，然而，显著的特征其实并不一定对分类有帮助。我们的目标还是要找出对分类作用大的特征，而不应该管这些特征本身的强弱。这就诞生了第2种的K-L变换方法。

其二：最优区分的K-L变换（混合白化后抽取特征）

针对上述问题，最优区分的K-L变换先把混合分布白化，再来根据特征值的分离程度进行排序。

最优区分的K-L变换步骤

首先还是混合分布的自相关矩阵R

$R = sumlimits_{i = 1}^M {P({w_i}){R_i}} = sumlimits_{i = 1}^M {P({w_i})Eleft{ {{x_i}{x_i}^T} ight}}$

然后求出R的特征向量和特征值：

以上是主轴变换，实际上是坐标旋转，之前已经介绍过。

令变换矩阵

${A_1} = {Lambda ^{ - frac{1}{2}}}{Phi ^T}$

则有

${A_1}R{A_1}^T = {Lambda ^{ - frac{1}{2}}}{Phi ^T}RPhi {Lambda ^{ - frac{1}{2}}} = I$

这个 ${A_1}$ 作用是白化R矩阵，这一步是坐标尺度变换，相当于把椭圆整形成圆，如图3所示。

图3

以二类混合分布问题为例。

${R_1} + {R_2} = {A_1}{R_1}{A_1}^T + {A_1}{R_2}{A_1}^T = {A_1}R{A_1}^T = I$

分别求出二类的特征向量和特征值，有

$egin{array}{*{20}{c}}{{S_1} = {Phi _1}{Lambda _1}{Phi _1}^T}\{{S_2} = I - {S_1} = {Phi _1}[I - {Lambda _1}]{Phi _1}^T}end{array} Rightarrow egin{array}{*{20}{c}}{{Phi _2} = {Phi _1}}\{{Lambda _1} + {Lambda _2} = I}end{array}$

则二者的特征向量完全相同，唯一的据别在于其特征根，而且还负相关，即如果 ${Lambda _1}$ 取降序排列时，则 ${Lambda _2}$ 以升序排列。

为了获得最优区分，要使得两者的特征值足够不同。因此，需要舍弃特征值接近0.5的那些特征，而保留使 $left| {{lambda _{1i}} - {lambda _{2i}}} ight|$ 大的那些特征，按这个原则选出了m个特征向量记作

${A_2}^T{ m{ = }}{Phi _{11}},{Phi _{12}}, ldots ,{Phi _{1m}}$

则总的最优区分的K-L变换就是：

$A = {A_2}^T{A_1} = {A_1}^T{Lambda ^{ - frac{1}{2}}}{Phi ^T}$

查看全文

相关阅读:
nova 注入adminpass 添加用户等设置
 mysql 集群 avc error
openstack novnc console haproxy mitaka
NFS金陵科技学院
 windows下命令行格式化U盘
 linux下安装mysql
连表查询
 查询语句
 索引
 插入，更新与删除数据

原文地址：https://www.cnblogs.com/stevenlk/p/6543488.html