方法:
l 数据清理(Clearing)
l 数据集成(Integration)
l 数据变换(Transformation)
l 数据归约/降维(Reduction)
l 数据增维(expand)
l 特征提取(generate)
(1)数据清理 -- 空缺值处理
a)使用最可能的值填充空缺值,比如可以用最小二乘回归模型或判定树归纳等确定空缺值。这类方法依靠现有的数据信息来推测空缺值,使空缺值有更大的机会保持与其他属性之间的联系。
b)用一个全局常量替换空缺值,使用属性的平均值填充空缺值或将所有元组按某些属性分类,然后用同一类中属性的平均值填充空缺值。如果空缺值很多,这些方法可能误导挖掘结果。
(2)数据清理 -- 噪声数据处理
噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。常用分箱、回归、计算机检查和人工检查结合、聚类等方法进行噪音处理。
(3)数据变化
a)数据平滑 -- 分箱(按中值/平均值/边值)
b)数据概念化
c)规范化
(4)数据归约(离散化)
去掉可分性不强和冗余的特征。常用维归约、数据压缩、数值归约等方法实现。
PCA降维,principal component analysis,即主成成分分析
参考地址:http://www.cnblogs.com/sweetyu/p/5085798.html