zoukankan      html  css  js  c++  java
  • 【数据立方】数据立方体的有效计算、物化materialization,索引OLAP数据

    一、数据立方体的有效计算

    多维数据分析的核心是有效计算多个维度合上的聚集。按SQL术语,这些聚集称为group-by。

    对于n维的立方体,包括基本立方体总共有(2的n次幂)个方体。(假设每个维没有分层)

    curse of dimensionality 如果数据立方体中所有的方体都预先计算,所需的存储空间可能爆炸。

    二、物化materialization

    部分物化

    冰山立方体:是一个数据立方体,它只存放其聚集值(如计数)大于某个最小支持度阈值的立方体单元。

    一旦选定的方体已经物化,重要的是在查询处理时利用它们。

    三、索引OLAP数据

    大部分数据仓库系统支持索引结构和物化视图(使用方体)。

    位图索引,连接索引,位图连接索引

  • 相关阅读:
    模型评估方法
    欠拟合、过拟合、偏差、方差
    机器学习基本概念
    Hive 的基本概念
    Flume的Channel
    Flume的Sink
    Flume的Source
    Flume 安装和配置
    Flume的基本概念
    BIO & NIO & NIO常见框架
  • 原文地址:https://www.cnblogs.com/549294286/p/2815602.html
Copyright © 2011-2022 走看看