什么激发了数据挖掘,为什么它是重要的?
决策者缺乏从海量数据中提取有价值知识的工具,我们希望重要的决策是基于数据储存仓库中信息丰富的数据,而不是基于决策者的直觉。
数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。
什么是数据挖掘?
简单说,从大量数据中提取或“挖掘”知识。
数据挖掘作为知识发现过程的一个步骤。
数据库
数据清理(消除噪声和不一致数据),数据集成(多种数据源可以组合在一起)
数据仓库
数据选择(从数据库中提取与分析任务相关的数据)
数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)
数据挖掘(基本步骤,使用智能方法提取数据模式)
模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)
知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
典型的数据挖掘系统具有以下主要成分:
数据库、数据仓库、万维网或其他信息库;可以对其数据进行数据清理和集成
数据库或数据仓库服务器:负责提取相关数据
知识库:用于指导搜索或评估结果模式的兴趣度;
数据挖掘引擎:用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。
模式评估模块:
用户界面;
对何种数据进行数据挖掘:
关系数据库,
数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单个站点。其实际物理结构可以是关系数据存储或多维数据立方体。
事务数据库:由一个文件组成,其中每个记录代表一个事务;
高级数据和信息系统与高级应用:
对象-关系数据库:变量集,消息集和方法集;
时间数据库、序列数据库和时间序列数据库:
空间数据库和时间空间数据库
文本数据库和多媒体数据库;
异构数据库和遗产数据库;
数据流:海量甚至可能无限,动态变化,以固定的次序流进和流出,只允许一遍或少数几遍扫描,要求快速(常常是实时的)响应时间。
万维网;
数据挖掘功能----可以挖掘什么类型的模式
概念/类描述:特征化和区分。数据特征的输出可以用多种形式,包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。
挖掘频繁模式、关联和相关;
分类和预测:聚类分析;离群点分析;演变分析(描述行为随时间变化的对象的规律或趋势,并对其建模。)
说明数据挖掘任务的原语
任务相关数据:数据库或数据仓库名;数据库表或数据立方体;数据选择条件;相关属性或维;数据分组标准
挖掘的知识类型:特征化;区分;关联/相关;分类/预测;聚类
背景知识:概念分层;用户对数据联系的信念
模式相关度度量:简洁性;确定性(如置信度);实用性(如支持度);新颖性
发现模式的可视化:规则,表、报告、图表、图、决策树和立方体、下钻或上卷。
数据挖掘系统与数据库系统或数据仓库系统的集成
数据挖掘系统设计的一个关键问题是如何将DM系统与数据库系统和或数据仓库系统集成或耦合。
不耦合:DM系统不利用DB或DW系统的任何功能。它可能由特定的数据源(如文件系统)提取数据,使用某些数据挖掘算法处理数据,然后再将挖掘结果存放到另一个文件中。
松散耦合:DM系统将使用DB或DW系统的某些设施,从这些系统管理的数据库中提取数据,进行数据挖掘,然后将挖掘的结果存放到文件中,或者存放到数据库或数据仓库的指定位置。
半紧密耦合:排序、索引、聚集、直方图分析、多路连接和一些基本的统计度量的预计算。
紧密耦合:DM系统平滑地继承到DB/DW中。