zoukankan      html  css  js  c++  java
  • 数据挖掘学习--数据仓库

    一.数据仓库概念

    数据仓库是一个面向主题的,集成的,随时间而变化的,不容易丢失的数据集合,支持管理部分的决策过程。

    为统计的历史数据分析提供坚实的平台,对信息处理提供支持。

    二.数据仓库的关键特征

    1.面向主题,

    2.数据集成

    一个数据仓库是通过多个异种数据源来构造的

    关系数据库,一般文件,联机事物处理

    使用数据清理和数据集成技术

    命名约定,编码结构,属性变量等的一致

    当数据被移到数据仓库时,它们要经过转换。

    3.随时间变化

    数据仓库的时间范围比操作系统库系统要长的多

    操作数据库系统:主要保存当前数据

    数据仓库:从历史的角度提供信息(比如过去5-10年)

    数据仓库中的每一个关键结构都隐式或显示的包含时间元素,而操作数据库中的关键结构可能不包含时间元素。

    4.数据不易丢失

    尽管数据仓库中的数据来自操作数据库,但他们却是在物理上是分离保存的。

    操作数据库的更新操作不会出现在数据仓库环境下

    不需要处理事务处理,恢复和并发控制等机制

    只需要两种数据访问 数据的初始装载和数据访问

    三.传统的异种数据库集成

    在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators)

    查询驱动方法-当客户端传过来一个查询时,首先使用元数据字典将查询转换成相应的异种数据的查询,然后,将这些查询映射和发送到局部查询处理器

    缺点 复杂的信息过滤和集成处理处理,后台竞争资源

    数据仓库:更新驱动

    1将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析

    2 高性能

    四.OLTP和OLAP主要区别

    操作数据库主要任务是OLTP 联机事物处理

    数据仓库主要任务是OLAP 联机分析处理

    用户和系统的面向性:顾客     市场

    数据内容  当前的.详细的数据,历史的,汇总的数据

    数据库设计 实体-联系模型(ER)和面向应用的数据库设计   星型/雪花模型和面向主题的数据库设计。

    视图 当前的.企业内部的数据 VS经过演化的。集成的数据

    访问模式 事物操作  只读查询(但很多都是复杂的查询)

  • 相关阅读:
    Python 学习笔记 11.模块(Module)
    Python 学习笔记 8.引用(Reference)
    Python 学习笔记 9.函数(Function)
    Python 学习笔记 6.List和Tuple
    Python 学习笔记 4.if 表达式
    Python 学习笔记 2.自省
    Python 学习笔记 3.简单类型
    Python 学习笔记 7.Dictionary
    Python 学习笔记 5.对象驻留
    Python 学习笔记 10.类(Class)
  • 原文地址:https://www.cnblogs.com/wujin/p/3219430.html
Copyright © 2011-2022 走看看