zoukankan      html  css  js  c++  java
  • 数据挖掘相关概念(summary)

    1.数据库和数据管理产业在一些关键功能的开发上不断发展:数据收集和数据库创建、数据管理(包括数据存储和检索、数据库事务处理)和高级数据分析(包括数据仓库和数据挖掘)。

    2.数据仓库:这是一种多个异构数据源在单个站点以统一的模式组织的存储,以支持决策管理。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。

    3.许多人把数据挖掘视为另一个流行术语数据中的知识发现(KDD)的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。

    4.数据挖掘过程:数据清理(消除噪声和删除不一致数据);数据集成(多种数据源可以组合在一起);数据选择(从数据库中提取与分析任务相关的数据);数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式);数据挖掘(基本步骤,使用智能方法提取数据模式);模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式。);知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。

    5.数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

    6.数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据(称做数据库)和一组管理和存取数据的软件程序组成。软件程序提供如下机制:定义数据库结构和数据存储,说明和管理并发、共享或分布式数据访问,面对系统瘫痪或未授权的访问,确保存储的信息的一致性和安全性。

    7.关系数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。通常为关系数据库构建语义数据模型,如实体-联系(ER)数据模型。ER数据模型将数据库表示成一组实体和它们之间的联系。

    8、数据仓库用称作数据立方体(data cube)的多维数据结构建模。其中每个维对应于模式中的一个或一组属性,而每个单元存放某种聚集度量值。数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据。

    9.一个模式是有趣的,如果它:1)易于被人理解;2)在某种确信度上,对于新的或检验数据是有效的;3)是潜在有用的;4)是新颖的。

    10.存在一些模式兴趣度的客观度量。这些度量基于所发现模式的结构和关于它们的统计量。对于形如X=>Y的关联规则,一种客观度量是规则的支持度.

  • 相关阅读:
    计算机书籍.网址
    MVC是必知必用的
    技术
    三色旗帜分类
    巴斯卡三角形
    Centos安装wine等组件的问题
    some software that is used to speed up your system
    驾照考试系统之流程图
    用静态成员函数调用非静态成员变量
    MFC 进度条控件
  • 原文地址:https://www.cnblogs.com/bzsh/p/4403026.html
Copyright © 2011-2022 走看看