一、数据预处理过程包括
(一)Attribute Selection(字段选择)
- Data Integration(数据整合) 多重数据源的整合问题
• 消除数据不一致
台币 VS. 美金
• 消除数据重复性
A及B数据表都有某会员的数据
(二)Data Cleansing(数据清洗)
- Wrong Value(错误值)
- Outlier(离群值)
- Missing Value(空值)
注意:数据清洗阶段,最重要的第一步是数据质量报告,数据质量报告3张表牢记:第一,字段汇总情况表;第二,数值型字段情况表;第三,类别性字段情况表。
(三) Attribute Enrichment(字段扩充)
- 外部数据整合
-
内部数据的统整(Data Aggregation)
利用旧字段将其加总、统计做初步整理,使得数据更适合探勘
(四)Data Coding(数据编码)
- Data Transformation(数据转换)
- Data Reduction(数据精简)
- Record Reduction(记录精简)
- Attribute Value Reduction(域值精简)
- Attribute Reduction(字段精简)