一、什么是数据挖掘
数据挖掘时在大型数据存储中,自动地发现有用信息的过程。数据挖掘技术用来查探大型数据库,发现先前未知的有用某事。数据挖掘还可以预测未来观测结果。
并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查询记录,或者利用搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些涉及使用复杂的算法和数据结构,但是它们主要因爱传统的计算机科学计数和数据的明显特征来创建索引结构,从而有效地组织和检索信息。
数据挖掘与知识发现
数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分。
KDD是将未加工的数据转换为有用信息的整个过程。
输入数据:可以以各种形式存储,并且可以驻留在集中的数据存储库中,或分布于多个站点。
数据预处理(preprocessing):目的在于将未加工的输入数据转换成适合分析的形式。数据预处理可能是整个知识发现过程中最费力、最耗时的步骤。数据预处理设计的步骤包括如下:
- 如何来自多个数据源的数据;
- 清洗数据以消除噪声和重复的观测值。
后处理(postprocessing):确保只将那些有效的和有用的结果集成到决策支持系统中。它使得数据分析这可以从各种不同的视角探查数据和数据挖掘结构。在后处理阶段,还能使用统计度量或假设检验,删除虚假的数据挖掘结果。
二、数据挖掘所要解决的问题
可伸缩:由于数据产生的巨大化和手机技术的进步,算法必须是可伸缩的。使用特殊的搜索策略处理指数级搜索问题。为实现可伸缩要需要新的数据结构,才能有效访问每个记录。
例如,当要处理的数据不能放进内存时,可能需要非内存算法。使用抽样技术或开发并行和分布算法也可以提高可伸缩程度。
高维性:数据集拥有成百上千属性,而不是几十年前常见的只具有少量属性的数据集。对于某些数据分析算法,随着维度的增加,计算复杂性迅速增加。
异种数据和复杂数据:传统数据分析方法只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。随着数据挖掘在商务、科学、医学和其他领域的作用越来越大,越来越需要能够处理异种属性的技术。
为挖掘这种复杂对象而开发的技术应当考虑数据中的联系,如时间和空间的自相关性、图的连续性、半结构化文本和XML文档中元素之间的父子联系。
这些非传统的数据类型的例子为如下:
- 含有半结构化文本和超链接的Web页面集
- 具有序列和三维结构的DNA数据
- 包含地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据
数据的所有权与分布:常常所需分析的数据并非存放于一个站点,或归属于一个机构,而是地理上分布在属于多个机构的资源中。这就需要开发分布式数据挖掘技术。
分布式数据挖掘算法面临主要挑战包括:
- 如何降低执行分布式计算所需的通信量
- 如何有效地统一从多个资源得到的数据挖掘结果
- 如何处理数据安全性能问题
非传统的分析:传统统计方法基于一种假设—检验模式,即提出一种假设,设计实验来收集数据,然后正对假设分析数据。但是,这一过程过于费力。当前的数据分析任务常常需要产生和评估数千种假设,因此需要自动地产生和评估假设,这促使人们开发了一些数据挖掘技术。
三、数据挖掘的起源
为解决各种挑战,来自不同学科的研究者汇聚一堂,着手于开发可以处理不同数据类型的更有效的、可伸缩工具。数据挖掘利用了来自如下领域的思想:
- 统计学的抽样、估计和假设检验
- 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论
- 数据库系统提供有效的存储、索引和查询处理支持
- 高性能计算技术在处理海量数据集方面的必要性
- 分布式技术协助处理海量数据,在数据不能集中到一起处理时更有至关重要的作用
- 数据挖掘自主接纳了上述领域的最优化、进化计算、信息论、信号处理、可视化和信息检索
四、数据挖掘任务
通常数据挖掘任务分为以下两大类。
- 预测任务:目标在于根据其他属性的值,预测特定属性的值。被预测的属性一般称目标变量或因变量,而用来做预测的属性称说明变量或自变量。
- 描述任务:目标在于概括数据中潜在联系模式(相关、趋势、聚类、轨迹和异常)。
本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。细分之后数据挖掘任务主要分为以下四种:
- 预测建模(perdictive modeling):涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:
- 分类:预测一个用户是否会在网上书店买书,这类目标变量分类任务
- 回归:预测某股票的未来价格,这类连续值属性任务
- 关联分析(association analysis):用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。
- 聚类分析(cluster analysis):旨在发现精密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。
- 异常检测(anomaly detection):识别特征显著不同于其他数据的观测值。这样的观测值成为异常点(anomaly)或离群点(outlier)