数据样本的常见类型
1)数值型和分类型
2)离散型和连续性变量
3)是否与时间相关
原始数据的转换
1)标准化(a)小数缩放(b)最小-最大值标准化(c)标准差标准化
数据平整
插值与比率(提高数据挖掘的性能)
对于丢失数据的处理
(1)手动生成缺失数据
(2)用特征平均值替换丢失值
时间相关数据
多数情况下t(n+1)-t(n),t(n+1)/t(n)(变化率)作为预测结果比t(n)要好
移动平均数MA
指数移动平均数EMA
异常点分析
检测异常点
一种是分布已知,超出阙值的则为异常点
另一种一维方法是格拉布斯法