zoukankan      html  css  js  c++  java
  • 数据仓库 之理论

    一、为什么学数据仓库

    1. 数据不兼容,很难被整合 
    2. 战略决策需要数据的分析
    3. 推荐系统

    二、数仓定义

    是一个面向主题的、集成的、非易失的、随时间变化的数据集合

    1. 主题 

      >> 如“销售分析”主题
      数据源可以表,可以视频、图片、日志
      提取主题
      >> 包含主题所有信息,抛弃无关数据

    2. 集成 

    3. 非易失 

    非原始数据,乃拷贝形成

    4. 随时间变化 

    三、数据仓库和数据库的区别

    补充:3NF —— 数据库三大范式

    补充:OLTP和OLAP区别

     

     补充:hive一般不更新,但是硬要事务,需要建表语句中加"transactional=true"

    四、数据仓库的架构 

    1. inmon:中间使用 数据库

    2. Kimball 

     

    详见:https://www.cnblogs.com/dajiangtai/p/11718779.html

    五、数据仓库的解决方案

    六、数据仓库的建模

    1)选择业务流程

    2)声明粒度

     建议最细粒度

    3)确认维度 & 确认事实

    • 多维模型:

    (一)星型模型

    (二)雪花模型

  • 相关阅读:
    递归
    排序算法的稳定性与复杂度总结
    二分查找
    希尔排序
    快速排序
    归并排序
    插入排序
    选择排序
    冒泡排序
    i2c_smbs 函数
  • 原文地址:https://www.cnblogs.com/sabertobih/p/13952093.html
Copyright © 2011-2022 走看看