作为一个应用驱动的领域,数据挖掘吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术(见图i. m )。数据挖掘研究与开发的边缘学科特性极大地促进了数据挖掘的成功和广泛应用。本节我们给出一些对数据挖掘方法的发展具有重要影响的学科例子。
- 统计学
统计学研究数据的收集、分析、解释和表示。数据挖掘与统计学具有天然联系。
统计模型是一组数学函数,它们用随机变量及其概率分布刻画目标类对象的行为。统计模型广泛用于对数据和数据类建模。例如,在像数据特征化和分类这样的数据挖掘任务中,可以建立目标类的统计模型。换言之,这种统计模型可以是数据挖掘任务的结果。反过来,数据挖掘任务也可以建立在统计模型之上。例如,我们可以使用统计模型对噪声和缺失的数据值建模。于是,在大数据集中挖掘模式时,数据挖掘过程可以使用该模型来帮助识别数据中的噪声和缺失值。
- 机器学习
机器学习考察计算机如何基于数据学习(或提高它们的性能)。其主要研究领域之一是,计算机程序基于数据自动地学习识别复杂的模式,并做出智能的决断。例如,一个典型的机器学习问题是为计算机编制程序,使之从一组实例学习之后,能够自动地识别邮件上的手写体邮政编码。
数据挖掘与机器学习有许多相似之处。对于分类和聚类任务,机器学习研究通常关注模型的准确率。除准确率之外,数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和可伸缩性,以及处理复杂数据类型的办法,开发新的、非传统的方法。
- 数据库系统与数据仓库
数据库系统研究关注为单位和最终用户创建、维护和使用数据库。特别是,数据库系统研究者们已经建立了数据建模、查询语言、查询处理与优化方法、数据存储以及索引和存取方法的公认原则。数据库系统因其在处理非常大的、相对结构化的数据集方面的高度可伸缩性而闻名。
- 信息检索
信息检索(IR)是搜索文档或文档中信息的科学。文档可以是文本或多媒体,并且可能驻留在Web上。传统的信息检索与数据库系统之间的差别有两点:信息检索假定所搜索的数据是无结构的;信息检索查询主要用关键词,没有复杂的结构(不同于数据库系统中的SQL查询)。
本文来源:《数据挖掘概念与技术》