zoukankan      html  css  js  c++  java
  • 数据挖掘概念与技术10--数据仓库的系统结构

    1.数据仓库设计的四种视图

      自顶向下视图:选择数据仓库所需的相关信息。这些信息能够满足当前和未来商务的需求。

      数据源视图:揭示操作数据库系统收集,存储和管理的信息。这些信息可能以不同的详细程度和精度建模,存放在由个别数据源表到集成数据源表中。通常,用传统的数据建模技术,如实体-联系模型或CASE工具建模。

      数据仓库视图:包括事实表和维表,提供存放数据仓库内部的信息,包括预计算的综合和计数,以及提供历史背景的关于源、原始日期和时间等信息。

      商务查询视图:从最终用户的角度透视数据仓库中的数据。

    2.数据仓库的设计过程

      a.方法:

        自顶向下:由总体设计和规划开始,当技术成熟并已经掌握,对必须解决的商务问题清楚并很好理解时使用。费用高时间长灵活度小,因为整个组织所有部门就共同的数据模型达成一致是困难的。

        自底向上:以试验和原型开始,在商务建模和计数开发早期有用。后期将所有的数据集市集成时是困难的。

      b.设计步骤:

        (1)选取待建模的商务处理。即前面所讲的主题:销售,订单,库存等。此时应判断该商务过程是企业的还是部门的,来选择数据仓库或者是数据集市。

        (2)选取商务处理的粒度。即:前面所述的抽象层次。例:一天,一年,国家,城市等。

        (3)选取每个事实表所记录的维。

        (4)选取事实表中每条记录的度量。典型的是可加的数值。

    3.三层数据仓库的系统结构

      (1)底层是仓库数据服务器。几乎总是关系型数据库。通过后端工具或使用程序进行数据提取,清理和变换,以及装入和刷新,更新数据仓库。

      (2)中间是OLAP服务器。典型的实现是关系OLAP(ROLAP)和多维OLAP(MOLAP)。以实现对多维数据的操作。

      (3)顶层是前端客户层。它包括查询和报表工具、分析工具、数据挖掘工具。

        

        注:数据的提取是将底层的数据通过 变换后提取到中间层的数据仓库。数据提取通常使用网间连接程序(由基础的DBMS支持,允许客户程序产生SQL代码在服务器上执行。例子包括ODBC,JDBC,OLEDB(微软))。

    4.数据仓库模型

      (1)企业仓库。

      (2)数据集市。(分为两类:独立的,依赖的(数据直接来自企业级数据仓库))。

      (3)虚拟仓库。虚拟仓库是操作数据库视图的集合。

    5.OLAP服务器类型

      (1)关系OLAP(ROLAP)。使用关系的或扩充关系的DBMS存储并管理数据,较大的可伸缩性。其使用关系表存放联机分析处理数据。

      (2)多维OLAP(MOLAP)。通过基于数组的多维存储引擎支持数据的多维视图。将多维数据直接映射到数据立方体,能够对预计算的汇总数据加速索引。但是数据系数易浪费存储空间。其使用多维数组结构存放联机分析处理数据。

      (3)混合OLAP(HOLAP)。混合上两种。

      (4)特殊的SQL服务器。在只读环境下。对星形和雪花模式进行SQL查询。

  • 相关阅读:
    面试题15:链表中倒数第K个结点
    面试题31:连续子数组的最大和
    数据库索引实例
    面试题27:二叉搜索树与双向链表
    面试题28:字符串的排列
    java比较器Comparable接口和Comaprator接口
    面向对象知识汇总
    虚函数与纯虚函数
    Linux IO实时监控iostat命令详解
    hive GroupBy操作(翻译自Hive wiki)
  • 原文地址:https://www.cnblogs.com/zjh225901/p/6108898.html
Copyright © 2011-2022 走看看