数据挖掘通过预測未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有下面五类功能。
1、自己主动预測趋势和行为
数据挖掘自己主动在大型数据库中寻找预測性信息,以往须要进行大量手工分析的问题现在能够迅速直接由数据本身得出结论。一个典型的样例是市场预測问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其他可预測的问题包含预报破产以及认定对指定事件最可能作出反应的群体。
2、关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
3、聚类
数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描写叙述和偏差分析的先决条件。聚类技术主要包含传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描写叙述,从而避免了传统技术的某些片面性。
4、概念描写叙述
概念描写叙述就是对某类对象的内涵进行描写叙述,并概括这类对象的有关特征。概念描写叙述分为特征性描写叙述和差别性描写叙述,前者描写叙述某类对象的共同特征,后者描写叙述不同类对象之间的差别。生成一个类的特征性描写叙述仅仅涉及该类对象中全部对象的共性。生成差别性描写叙述的方法非常多,如决策树方法、遗传算法等。
5、偏差检測
数据库中的数据常有一些异常记录,从数据库中检測这些偏差非常有意义。偏差包含非常多潜在的知识,如分类中的反常实例、不满足规则的特例、观測结果与模型预測值的偏差、量值随时间的变化等。偏差检測的基本方法是,寻找观測结果与參照值之间有意义的区别。 数据挖掘与传统分析方法的区别
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质差别是数据挖掘是在没有明白如果的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和可有用三个特征.
先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的样例就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。