zoukankan      html  css  js  c++  java
  • 数据仓库-基本框架和内容

    数据仓库:
      维度建模
      数据分层
      命名规范
      元数据管理

    数据模型设计
      前提设定: 物理世界的每一个度量事件 与对应的 事实表行 具有一对一的关系
      内涵:数据组织,存储和使用的方法
      注意方面: 功能实现 质量管理 性能效率 存储成本和收益 可扩展和方便维护
        适应变化,一致性,及时, 安全 可追溯
        适应变化: 业务快速发展, 人员快速变化, 业务功底不足
      要什么:
        指标和度量: 原子型
        比例 比率 变化型 排名型

    1.维度建模:
      01.维度建模基本概念:
        主题域 粒度 维度 度量 事实表
        维度: 缓慢变化维
      02.维度建模5步骤:
        确定主题域 业务过程
        确定粒度   特定级别的细节数据,细节程度 01.粒度是维度的组合 02 业务含义
        确定维度
        确定度量 创建事实表

      说明:
        维度属性:
          查询的约束条件 分组汇总和排序, 确定主维度 和相关维度,从相关维度表中选择或生成新的维度
          多值维度
          维度的层次结构; 层次结构扁平化 层次桥接表
        时间周期: 计算周期

      03.维度
        缓慢变化维 : 重新维度值 增加维度行 增加维度列
        维度建模总线
        维度退化
        维度整合和拆分

      04.事实表选用

        事务事实表
        周期快照事实表
        累积快照事实表


    2 数据分层

         从业务角度: 运营层(数据缓存,数据准备)、公共层(模型,标准)、服务层(应用服务,数据产品)

     从技术角度
        数据近源层、
        公用模型层 (公共明细层、公共汇总层、公共维度层)
        数据应用层

    3.命名规范
      数据表名 表意 表字符长度

    4.元数据管理

         技术元数据

        业务元数据

    5.数据管理和评估
      数据分级: 分级依据-指标敏感等级,-指标重要等级
      价值评估 容错率 调用率


    6.指标分类体系
      以数仓分层(ODS-CDM<DWD/DWS/DIM>-ADS),
      维度建模作为理论基础,构建数据总线。标准化数据域、业务过程、维度、度量,
      按原子指标、派生指标(原子指标+业务限定+时间周期构建)、衍生指标(派生指标的简单复合运算),形成指标构建方式分类体系。

    参考:

      

  • 相关阅读:
    云计算安全之传统安全业务连续性和灾难恢复
    如何降低云应用程序的风险并管理其保障措施
    映射函数
    numpy用法
    dataframe基础
    list用法
    可视化基础
    pycharm使用技巧
    时间用法
    merge()函数
  • 原文地址:https://www.cnblogs.com/ytwang/p/13612382.html
Copyright © 2011-2022 走看看