主成分分析(PCA)的主要作用是降低数据的维度,提取其主要特征,因为现实中很多数据都是很稀疏的,通过提取主要特征过滤噪音发现其潜在的规律;核函数表示了两个数据之间的相似性。那么这两者之间存在什么样的关系?直观上理解,PCA和核侧重的是两个相反的方向,下面给出解释。
考虑下面的高斯核,
,x,y代表了两个数据点,j 代表了数据的不同特征,D是特征数
此时协方差矩阵为对角矩阵,当不是对角矩阵的时候,可以通过相似变换到一个对角矩阵。
由以上可知,如果,那么相应的维度等于0,从而可以忽略掉,因为加上一个0不会改变原来的值,我们更关心方差较小的那些特征。
另一方面,从PCA的角度考虑,如果,说明数据在该特征上区分度大,该特征就是数据的主要特征,我们希望保留该特征,对于方差较小的特征,即区分度不大(数据基本相似)的特征可以忽略掉。
从以上分析可以看出,PCA关注的是区分度,差异性,而Kernel关注的是相似度,PCA最希望保留的特征恰恰是kernel可以忽略的,而kernel保留的,很可能被PCA忽略掉了。
需要注意的是,我们上面考虑的是一种极端的情况,方差是无穷大,真实数据方差不会是无穷大,我们降维以后,数据的相似性也不会是0,被忽略掉的特征的相似性也不完全相同。上面的极端例子只是为了说明PCA和核函数侧重的是数据的两个方面,一个侧重差异性,另一个侧重相似性。