数据挖掘(Data Mining):指的是从大数据中获取有用的信息。从另一个角度来说,可以把它理解为信息技术自然进化过程中的产物。正如图1.1(来源于Data mining concepts and techniques一书中)中所呈现,数据库系统的发展历程经历了一下几个阶段:1)数据储存和数据库创建;2)数据管理;3)高级数据分析。而数据挖掘可以看做是一种高级数据分析的技术,可以从数据库、数据仓库(Data Warehouses)或其他数据存储库中获取用户感兴趣的模式或知识。数据挖掘技术在决策支持、市场分析、错误检测以及科学探索等方面有广泛的应用,因此在近些年在研究领域得到极大的关注。
对于一个典型的数据挖掘系统来说主要由以下几个部分组成(如图1.5):
1.数据库、数据仓库或其他数据储存库。这是一系列数据库、数据仓库的集合。数据挖掘操作的数据来源于这个集合。
2.数据库服务器。对于数据库服务器来说,它的主要任务是根据用户的数据挖掘请求从数据集合中获取相关的数据。
3.知识库。在知识库中主要包含一些领域知识,用于指导查询或对获取的结果进行评估。
4.数据挖掘引擎。它是数据挖掘系统的核心模块,主要包含一些用于进行数据挖掘的功能模块,例如,分类模块、关联性分析模块以及聚类分析等常用模块。
5.模式评估模块。这个模块主要用于对挖掘得到的模式进行评估,使得最终反馈给用户的信息是用于需要的。
6.用户接口。该模块充当用户与系统之间的接口,用户通过这个接口提出查询请求,系统将最后的查询结果通过该接口返回给用户。
说到这,好多人可能会情不自禁将数据挖掘与知识发现(Knowledge Discovery)联系到一起以至于难舍难分。为了理清两者的关系,在接下来的内容中会对知识发现进行介绍。
知识发现(Knowledge Discovery):知识发现是从各种数据源中获取知识的过程。由以下几个步骤迭代获取(如图1.4):
1.数据清洗。数据清洗主要用于去除数据源中的噪声数据和不一致的数据。
2.数据整合。通过数据整合可以将清洗后的多个数据源的数据汇总为一个统一数据库。
3.数据选择。在这一步主要根据用户的请求获取相关的数据用于进一步处理。
4.数据转换。通过执行一些汇总或者聚类的操作将数据转化为适合进行挖掘的形式。
5.数据挖掘。这是知识获取的核心步骤,用于获取数据模式。
6.模式评估。类似于数据挖掘中的模式评估。
7.知识表示。对获取的最后结果进行可视化的表示。