【Coursera】主成分分析

zoukankan html css js c++ java

【Coursera】主成分分析
一、问题
- 主方向的概念是什么？为什么降低维度的方法是使方差最大化？
  
  假设某两个特征之间成线性关系，在二维平面上的表示就是数据点呈线性分布，那么可以通过将数据在主方向上进行投影，得到一个一维的数据，这个一维的数据保留了原始数据大部分的信息.
  
  两个特征之间成线性关系，但是由于一些噪声的影响，所以数据分布并不严格处在一条直线上面。所谓的主方向就是要找到一个向量使得这个向量和预想中的直线大致符合。然后这样的一个向量应该满足什么要求呢？显然，应当使得所有的数据点到这个向量（直线）的距离总和最小，在数学表达上的体现就是尽可能使得每个点和主方向向量的协方差(x^{T}*u / m)最大，因为协方差变大时，x和u越正相关，那么x自然就距离直线更近。（有疑问）
  
  因为假定两个特征之间成线性关系，那么数据的分布肯定也大致符合一条直线，因此当各个数据投影到这条直线上时，数据的离散程度比其他情况更大，换言之就是数据的方差最大。所以使方差最大化可以找到所需要的向量。
  
  通过拉格朗日方法求解，可知向量u即为$sum $矩阵的特征向量，假设需要降维到k惟，那么就要选择特征值大的前k的特征向量。而为什么选用特征值大的向量？因为特征值越大，说明对应的特征向量代表了这个矩阵的主要特征（主要方向）。
- 解出来的特征向量个数为多少？如何知道k的具体大小？
  
  $sum $矩阵为实对称矩阵，因此特征向量两两正交，且特征向量个数一定有n个。
二、奇异值分解
- 奇异值分解的含义是，把一个矩阵A看成线性变换（当然也可以看成是数据矩阵或者样本矩阵），那么这个线性变换的作用效果是这样的，我们可以在原空间找到一组标准正交基V，同时可以在像空间找到一组标准正交基U，我们知道，看一个矩阵的作用效果只要看它在一组基上的作用效果即可，在内积空间上，我们更希望看到它在一组标准正交基上的作用效果。而矩阵A在标准正交基V上的作用效果恰好可以表示为在U的对应方向上只进行纯粹的伸缩！这就大大简化了我们对矩阵作用的认识，因为我们知道，我们面前不管是多么复杂的矩阵，它在某组标准正交基上的作用就是在另外一组标准正交基上进行伸缩而已。
查看全文

相关阅读:
Java常见异常处理情况
 动手动脑总结
 动手动脑总结
 二柱子测试三
 动手动脑总结
 动手动脑总结
 Docker同步IDEA
UISlider
Docker 部署 uwsgi+nginx + django
UITableView 九宫格

原文地址：https://www.cnblogs.com/CSLaker/p/8707735.html

【Coursera】主成分分析

一、问题

二、奇异值分解