1.数据挖掘(Data Mining)(KDD:Knowledge Discovery in DataBase 知识发现 )
• William Frawley & Gregory Piatetsky Shapiro, 1991。
• 从现有的大量数据中,撷取不明显、之前未知、可能有用的知识。
2.数据挖掘目标
•建立起决策模型
• 哪一类的用户对我的产品有兴趣?
• 根据过去的行动来预测未来的行为
3.数据挖掘过程(知识发现过程)Knowledge Discovery Process--六过程
(1) Attribute selection 字段选择
(2) Data cleansing 数据清洗
(3) Attribute enrichment 字段扩充
(4) Data coding 数据再编码
(5) Data Mining 数据挖掘
(6) Reporting 结果展示
其中,数据挖掘是关键阶段。
4.数据预处理Data Preprocessing
数据预处理过程包括四个阶段:attribute selection,,data cleansing,,attribute enrichment,,data coding
在整个数据挖掘过程中,数据预处理是最重要的一个步骤,数据预处理是否得当,对后续data mining 过程是否有效,以及质量的好坏有非常重要的影响。
- 有高质量的数据,才有高质量的数据挖掘模型。
- 数据预处理在整个数据挖掘知识发现的过程中,其重要性和所花费时间,要占到总时间的60%-80%
5. CRISP-DM(跨产业数据挖掘标准处理流程)
Business Understanding;; Data Understanding;; Data Preparation;;Modeling;;Evaluation;;Deployment