1. 什么是高维数据?
对于维度大于2的数据,便称为高维数据。
2. 该如何对这些高维数据进行处理呢?
数据降维:将高维的数据转换为 2 维度的形式,但是这样会丢失一些重要的信息。
这里主要是涉及到线性方法和非线性方法:
线性方法:
主成分分析(PCA): 二维降一维→找方差最大方向;三维降二维→找方差最大方向+其他(即协方差)需要知道数据点每个属性的具体值。
多维尺度分析:只需要知道数据点之间距离。保证点之间的距离的一致性。
非线性方法:
等度量映射
局部线性嵌入
3. 在对数据进行降维后,如何对高维数据进行可视化呢?
使用散点图矩阵,表示出属性之间的相互关系。使用平行坐标轴(每个轴对应一个属性;一条折线代表一个数据。)
还有基于图标的方法(用图标表达多元数据对象;不同图标元素表示不同属性;星形图、切尔诺夫脸谱图。)
像素图(能充分利用屏幕空间;每个像素点都表示数据点;利用密集、不同颜色像素表示数据)可以展示不同类别不断细分下的分布规律,但是不能把详细的数据点可视化出来。