第一章 扩展你的数据挖掘工具
- 模式识别
面对感官信息时,人类自然想要寻找模式,对其进行区别、分类和预测。这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长。利用这种技能,我们的祖先更好地掌握了狩猎、聚会、烹饪和组织知识。因此,人类最早计算机化的任务是模式识别和模式预测也就不足为奇了,这种渴望一直持续到现在。近来,根据给定项目的目标,使用计算机找出数据中的模式,已经涉及数据库系统、人工智能、统计学、信息检索、计算机视觉和其他各种计算机科学子领域,以及信息系统、数学或者商业等。不管我们将这种活动称作什么——数据库中的知识发现、数据挖掘、数据科学,其主要使命始终是找出有趣的模式。
模式识别是人类的一项基本能力
- 第一章主要内容
什么是数据挖掘
我们如何进行数据挖掘
数据挖掘中使用哪些技术
如何建立数据挖掘环境
如何建立数据挖掘环境是重点
什么是数据挖掘
- 数据挖掘与知识发现
- 比较术语
- 机器学习
是计算机中科学中的一个非常特殊的子领域,其焦点是开发能从数据中学习以做出预测的算法。但是并不是所有数据挖掘都试图从数据中做出预测或者学习。有时候,我们只是想要找到数据中的一个模式。 - 预测分析
各个领域中试图从数据中作出预测的计算解决方案的统称 - 大数据
与我们是要搜索数据中的模式还是简单地存储这些数据无关。 - 数据科学
是最接近KDD过程的术语,数据挖掘是他们的一个步骤。
- 机器学习
Fayyad等人的KDD过程
论文: The KDD Process for Extracting Useful Knowledge from Volumes of Data_1996
KDD方法的具体步骤
- 数据选择
- 数据预处理
- 数据变换
- 数据挖掘
- 数据解释/评估
- 数据挖掘教科书:《Data Mining:Concepts and Thechniques》
也是从原始数据导出知识:
数据清理
数据整合
数据选择
数据变换
数据挖掘
模式评估
知识表示
1.2.3 CRISP-DM过程
KDD过程的第3种流行版本为CRISP-MD,CRoss-Industry Standard Process for Data Mining
- 业务理解
- 数据理解
- 数据准备
- 建模
- 评估
- 部署