zoukankan      html  css  js  c++  java
  • 数据挖掘概念与技术(第一章)

    什么激发了数据挖掘,为什么它是重要的?

    决策者缺乏从海量数据中提取有价值知识的工具,我们希望重要的决策是基于数据储存仓库中信息丰富的数据,而不是基于决策者的直觉。

    数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。

    什么是数据挖掘?

    简单说,从大量数据中提取或“挖掘”知识。

    数据挖掘作为知识发现过程的一个步骤。

                       数据库

         数据清理(消除噪声和不一致数据),数据集成(多种数据源可以组合在一起)

                                            数据仓库

              数据选择(从数据库中提取与分析任务相关的数据)

    数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)

    数据挖掘(基本步骤,使用智能方法提取数据模式)

    模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)

    知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

    典型的数据挖掘系统具有以下主要成分:

    数据库、数据仓库、万维网或其他信息库;可以对其数据进行数据清理和集成

    数据库或数据仓库服务器:负责提取相关数据

    知识库:用于指导搜索或评估结果模式的兴趣度;

    数据挖掘引擎:用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。

    模式评估模块:

    用户界面;

    对何种数据进行数据挖掘:

    关系数据库,

    数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单个站点。其实际物理结构可以是关系数据存储或多维数据立方体。

    事务数据库:由一个文件组成,其中每个记录代表一个事务;

    高级数据和信息系统与高级应用:

                       对象-关系数据库:变量集,消息集和方法集;

                       时间数据库、序列数据库和时间序列数据库:

                       空间数据库和时间空间数据库

                       文本数据库和多媒体数据库;

                       异构数据库和遗产数据库;

                       数据流:海量甚至可能无限,动态变化,以固定的次序流进和流出,只允许一遍或少数几遍扫描,要求快速(常常是实时的)响应时间。

                       万维网;

    数据挖掘功能----可以挖掘什么类型的模式

    概念/类描述:特征化和区分。数据特征的输出可以用多种形式,包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。

    挖掘频繁模式、关联和相关;

    分类和预测:聚类分析;离群点分析;演变分析(描述行为随时间变化的对象的规律或趋势,并对其建模。)

    说明数据挖掘任务的原语

    任务相关数据:数据库或数据仓库名;数据库表或数据立方体;数据选择条件;相关属性或维;数据分组标准

    挖掘的知识类型:特征化;区分;关联/相关;分类/预测;聚类

    背景知识:概念分层;用户对数据联系的信念

    模式相关度度量:简洁性;确定性(如置信度);实用性(如支持度);新颖性

    发现模式的可视化:规则,表、报告、图表、图、决策树和立方体、下钻或上卷。

    数据挖掘系统与数据库系统或数据仓库系统的集成

    数据挖掘系统设计的一个关键问题是如何将DM系统与数据库系统和或数据仓库系统集成或耦合。

    不耦合:DM系统不利用DBDW系统的任何功能。它可能由特定的数据源(如文件系统)提取数据,使用某些数据挖掘算法处理数据,然后再将挖掘结果存放到另一个文件中。

    松散耦合:DM系统将使用DBDW系统的某些设施,从这些系统管理的数据库中提取数据,进行数据挖掘,然后将挖掘的结果存放到文件中,或者存放到数据库或数据仓库的指定位置。

    半紧密耦合:排序、索引、聚集、直方图分析、多路连接和一些基本的统计度量的预计算。

    紧密耦合:DM系统平滑地继承到DB/DW中。

     

  • 相关阅读:
    python 0.1
    写博
    ubuntu 下tomcat配置
    ubuntu Ulipad 配置
    git windows中文乱码 以及关键字加亮
    ubuntu windows mysql 中文乱码解决
    struts2 tomcat下生成文件保存指定的目录
    [你必须知道的.NET] 第二回:对抽象编程:接口和抽象类
    [你必须知道的.NET] 第三回:历史纠葛:特性和属性
    [你必须知道的.NET] 第一回:恩怨情仇:is和as
  • 原文地址:https://www.cnblogs.com/pandy/p/1989785.html
Copyright © 2011-2022 走看看