Data Mining --- Preprocessing

zoukankan html css js c++ java

Data Mining --- Preprocessing

1.数据描述：

均值mean(x)=1/n*Σxi，加权均值wieghted-mean(x)=Σwixi/Σwi；中值median；众数mode。经验公式：mean-mode=3*(mean-median)。1/4和3/4分位数；总体方差σ和样本方差s。

2.数据清理：

对缺失数据忽略/填充，对噪声数据进行平滑（装箱Binning，回归Regression，聚类Clustering）

a.等宽装箱（distance）,等深装箱（frequency）

b.回归

c.聚类

3、数据转换（去量纲）

a.最小值-最大值标准化：

b.Z-score标准化：

c.小数点标准化：

4.数据集成（相关分析、卡方检验）

a.相关性系数：值越大，相关性越大

b.卡方检验：值越大，相关可能性越大

5.数据归约

a.数据放聚集

b.维归约（特征选择）：向前逐步选择（每次选最好的属性），向后逐步删除（每次删最差的属性），决策树归纳（由决策树选择属性）。

c.数据压缩（离散小波变换DWT，由平滑和平滑-差数据集重构数据）

*wavelet小波变换：适合高维数据

其中fai(t)是一个小波，等价描述（局部化）：

一个单个小波函数fai(t)的平移与伸缩构成一个小波簇：

a为伸缩参数，b为平移参数，称fai(t)为母小波。定义小波变换为：

若满足其L2距离平方和有界，则称fai为基小波。

应用离散小波变换一般使用分层金字塔算法：

a.输入数据响亮的长度L为2的整数幂

b.变换涉及两个函数，第一个函数使数据平滑，第二个进行加权查分产生数据的细节特征

c.两个函数作用输入数据对，产生两个长度为L/2的数据集，分别代表输入数据低频（平滑）和高频内容。

d.两个函数递归地作用于前面循环得到的数据集，指导结果数据集的长度为2

e.由以上迭代得到的数据集中选择值，指定其为数据变换的小波系数

*主成分分析PCA：适合稀疏数据

进行特征值分解，并降序排列，保留特征值较大的特征向量作为主要成分来近似。

5.数值归约

a.回归和对数线性模型近似

b.直方图

c.聚类

d.选样：简单选样（有放回bootstrap/无放回）、聚类选样、分层选样。

查看全文

相关阅读:
Python变量常量命名
 代码格式
 Python 输入输出
 数据源
 LaTeX Test
软件工程
 eclipse-智能提示设置
 java代码里设置指定颜色常值
 命令行中Vim直接打开某行
 Vim里快速替换命令

原文地址：https://www.cnblogs.com/jizhiyuan/p/3465918.html