为什么要降维?
- 维数少可以使算法有更快的计算速度,减少机器内存占用等
- 多个特征携带的“信息”有相同或类似的情况(冗余)
- 用于数据可视化
如何降维?
简单的例子,对于二位数据
可以找到一条线
将所有的数据映射到这条线上
然后用映射后的一维数据去代表二位数据
三维降维到二维的例子,假设数据如下
这时,表征一个数据要用三维向量(x1, x2, x3)。如果找到一个平面
并将所有的数据投影到这个平面
这样数据就变为二维,原来的数据就可以用二维数据(z1, z2)代替
数据可视化例子
现有如下数据(不同国家的50个不同指标(GDP, Per capita GDP 等))
但是这些数据不能直观的感受它们之间的区别与联系,如果将数据降维到二维,并用这二维数据去表征50维数据
可以将这二维数据画出来,虽然说不出这二维数据(z1, z2)分别代表什么意思,但是,将他们画出来后可以比较直观的看到谁和谁是相似的(距离近),谁和谁是差别较大的。