zoukankan      html  css  js  c++  java
  • 数据仓库分层架构

    数据层的存储一般如下:
    Data Source
    数据源一般是业务库和埋点,当然也会有第三方购买数据等多种数据来源方式。业务库的存储一般是Mysql 和 PostgreSql。
    ODS 层
    ODS 的数据量一般非常大,所以大多数公司会选择存在HDFS上,即Hive或者Hbase,Hive居多。
    • ODS 全称是 Operational Data Store,操作数据存储.“面向主题的”,数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。但是,这一层面的数据却不等同于原始数据。在源数据装入这一层时,要进行诸如去噪(例如有一条数据中人的年龄是 300 岁,这种属于异常数据,就需要提前做一些处理)、去重(例如在个人资料表中,同一 ID 却有两条重复数据,在接入的时候需要做一步去重)、字段命名规范等一系列操作。
    可将ODS做成一个宽表,结合DW事实表与维度表或更多信息。
    DW 层
    一般和 ODS 的存储一致,但是为了满足更多的需求,也会有存放在 PG 和 ES 中的情况。
    一般DW曾进行维度、事实表设计;根据不同主题设计维度表与事实表。
    • 数据仓库层(DW),是数据仓库的主体.在这里,从 ODS 层中获得的数据按照主题建立各种数据模型。这一层和维度建模会有比较深的联系。
    APP 层
    应用层的数据,一般都要求比较快的响应速度,因此一般是放在 Mysql、PG、Redis中。
    一般DH曾,数据集市,针对不同用户,实现数据隔离。存储聚合数据。
     
    参考资料:
    https://www.cnblogs.com/wang3680/p/11538451.html
  • 相关阅读:
    存储过程学习笔记
    重新学习struts
    ANT打包J2EE项目war包
    08 | 递归:如何用三行代码找到“最终推荐人”?
    基于Flask 实现Web微信登陆
    基于轮询实现实时的在线投票系统
    Flask 微信公众号开发
    微信公众号开发
    爬虫之正则案例
    爬虫之正则表达式的应用爬取
  • 原文地址:https://www.cnblogs.com/xibuhaohao/p/11718889.html
Copyright © 2011-2022 走看看