zoukankan      html  css  js  c++  java
  • 【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)

    之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫“数据仓库”的地方。

    数据仓库的基本概念:

    • 数据仓库的定义——面向主题的、集成的、时变的、非易失的
    • 操作数据库系统VS数据仓库——为什么需要使用数据仓库分析数据(OLAP  VS  OLTP)
    • 数据仓库体系结构——三层体系结构:底层(数据仓库服务器)——中间层(OLAP服务器)——顶层(前段工具)
    • 三种数据仓库模型
    1. 企业模型
    2. 数据集市(只针对某一部门)
    3. 虚拟仓库
    • 元数据库——关于数据的数据

    理解OLAP,数据仓库,数据挖掘的联系与区别,参考:http://hi.baidu.com/hhhqpfnybgbfqrd/item/784f2d14b46c3106b98a1a83

      http://blog.csdn.net/cuipower/article/details/342070

    ————————————————————————————————————————————————————————————————————————————

    数据仓库建模:数据立方体与OLAP

    参考:http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0803zhousb/

    • 数据立方体——多维数据模型
    • 星形、雪花型和事实星座——多维数据模型的模式
    • 维——概念分层的作用
    • 度量的分类和计算

    分类——根据其所用的聚集函数

    1. 分布的
    2. 代数的
    3. 整体的
    • 典型的OLAP操作——上卷、下钻、切片和切块、转轴等
    • 查询多维数据库的星网查询模型

    ————————————————————————————————————————————————————————————————————————————

    数据仓库的实现

    • 数据立方体的有效计算——数据仓库包含海量数据,查询要迅速,因此要用到高效的数据立方体技术

    什么是数据立方体?

    数据立方体是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个因素(维度)。
    当我们试图从一堆数据中提取信息时,我们需要工具来帮助我们找到那些有关联的和重要的信息,以及探讨不同的情景。一份报告,不管是印在纸上的还是出现在屏幕上,都是数据的二维表示,是行和列构成的表格。在我们只有两个因素要考虑时,这就足矣,但在真实世界中我们需要更强的工具。
    数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样。 “立方体”这个词让我们想起三维的物体,我们也可以把三维的数据立方体看作是一组类似的互相叠加起来的二维表格。
    但是数据立方体不局限于三个维度。大多数在线分析处理( OLAP)系统能用很多个维度构建数据立方体,例如,微软的SQL Server 2000 Analysis Services工具允许维度数高达64个(虽然在空间或几何范畴想像更高维度的实体还是个问题)。
    在实际中,我们常常用很多个维度来构建数据立方体,但我们倾向于一次只看三个维度。数据立方体之所以有价值,是因为我们能在一个或多个维度上给立方体做索引。

    操作:

    SouthEast

    ∵维灾难:概念分层太多,没地方存储

    ∴预计算部分方体——部分物化

    • 索引又分为:位图索引和连接索引
    • OLAP查询的有效处理:细——》粗
    • OLAP服务器——为商务用户提供数据仓库或数据集市的多维数据,不必关心数据如何存放和存放在何处。

    ————————————————————————————————————————————————————————————————————————————

    数据泛化:面向属性的归纳

    什么叫数据泛化?

    数据泛化是一个从相对低层概念更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。对大量数据进行有效灵活的概述方法主要有两种:(1)数据立方(data cube)方法;(2)基于属性的归纳方法。

    数据立方体方法:基于数据的物化视图,通常在数据仓库中预先计算

    面向属性的归纳:面向查询的、基于泛化的、联机的数据分析处理技术

    注:两者没有固有界限

    ∵数据立方体技术不足以完成所有的大型数据集的概念描述任务

    ∴引出数据特征的面向属性的归纳

    概念描述——以简洁汇总的形式描述给定的任务相关数据集,提供数据的有趣的一般性质。由特征和比较组成。

  • 相关阅读:
    AGC037F Counting of Subarrays
    AGC025F Addition and Andition
    CF506C Mr. Kitayuta vs. Bamboos
    AGC032D Rotation Sort
    ARC101F Robots and Exits
    AGC032E Modulo Pairing
    CF559E Gerald and Path
    CF685C Optimal Point
    聊聊Mysql索引和redis跳表
    什么是线程安全
  • 原文地址:https://www.cnblogs.com/XBWer/p/4331269.html
Copyright © 2011-2022 走看看