比如说我们有两个特征变量,我们想让他变成一个变量
首先我们画一条线,做各个点到这条线上的投影,箭头所指的蓝色线段为
投影误差,PCA不会选择红色这条线投影,因为投影误差太大了。
所以PCA的目标是使投影误差最小化
PCA和线性回归的区别
线性回归的误差来自竖直方向,而PCA的误差来自垂直方向
PCA实现
1.数据的预处理
数据归一化或特征放缩
2.计算协方差方程
U为我们所求的结果,因为我们只需要k个方向,所以我们只取前k个方向。
3.原数据集转换
总结: