zoukankan      html  css  js  c++  java
  • 数仓学习1

    通常说的大数据平台主要包括三部分:

    • 数据相关的工具、产品和技术:

    – 批量数据采集传输sqoop,spark

    – 离线数据处理Hadoop,Hive,Spark

    – 实时流处理Storm,Spark Streaming,Flink

    • 数据资产:

    – 公司业务本身产生和沉淀的数据

    – 公司运作产生的数据(如财务、行政)

    – 第三方数据:外界购买、交换或者爬虫而来的数据

    • 数据管理:有了工具和数据,需要进行管理才能让数据价值最大和风险最小

    相关数据管理技术和概念:数据仓库、数据建模、数据质量、数据规范、数据安全和元数据管理

    心形模型

    维度表:一些属性的字典表 商品信息,

    事实表:用户行为

    雪花模型

    比如说用户年龄,性别  id---》id 姓名,与年龄

    统一标准:比如  一个业务部门  删除 0  在线 1 ,另一个 ,删除 N  在线 Y 

    口径就是常说的  where过滤条件

    上面的是一个业务线的数据建模

    整个大数据部门的数据仓库-------》数据集市{

    拉取相关字段建立宽表--------》在宽表的基础-----》各个业务抽取字段形成对应的业务表(机器学习的,数据分析的)-------》统计分析过程(join,或者中间临时表)-----》

    }

    这张 是对于公司所有类型的数据(埋点收集数据,员工数据、业务产品数据)全部存在数据仓库==============》后续分对应部门使用建表

    建模---》分层 的好处 :解耦,上游数据对下游影响较小,表的依赖关系去寻找业务问题

    ODSOperational Data Store,操作数据存储):原始数据层,数据源头表通常会原封不动的存储一份。DW层(DWDDWS层):

    DWD(data warehouse detail明细层

    DWS(data warehouse service 汇总层

    数据仓库明细层DWD和数据仓库汇总层DWS是数据平台的主要内容。它们是通过ODS层经过ETL清洗、转换、加载生成的

    基于维度建模理论来构建,通过一致性维度和数据总线来保证各个子主题的维度一致性。(就算数据表被删了也可以重新跑 从ODS恢复过来)

    ADS(集市数据层,也称应用层):应用层主要是各个业务方或者部门基于DWD和DWS建立的数据集市(DM),数据集市是相对于数据仓库来说的。一般应用层的数据是来源于DW层,原则上是不能访问ODS层的。对比于DW层,应用层只包含部门或业务方自己关心的明细层和汇总层的数据。(一般是将各个要用的表join起来形成宽表,供下游业务分析人员 select * )

     准备区:在hdfs备份一份原始数据

    dw:数据仓库,数据开发建模

    dm:数据集市应用  多表join的结果

    OLTPOLAP的区别:

    OLTP(online transaction Processing) 联机事务处理过程:侧重于单条数据的查新,主要是在关系型数据库上

    OLAP联机分析处理:专门的分析性数据库,侧重于批量的数据请求,更加试用于大数据查询处理

    列式存储的好处:

    对于OLAP 查询都是相关的列,不需要读取整个表所有字段进行处理

    对于OLTP 进行增删改查,多半是对整行数据进行操作

  • 相关阅读:
    hdu 5007 水题 (2014西安网赛A题)
    hdu 1698 线段树(成段替换 区间求和)
    poj 3468 线段树 成段增减 区间求和
    hdu 2795 公告板 (单点最值)
    UVaLive 6833 Miscalculation (表达式计算)
    UVaLive 6832 Bit String Reordering (模拟)
    CodeForces 124C Prime Permutation (数论+贪心)
    SPOJ BALNUM (数位DP)
    CodeForces 628D Magic Numbers (数位DP)
    POJ 3252 Round Numbers (数位DP)
  • 原文地址:https://www.cnblogs.com/hejunhong/p/11241656.html
Copyright © 2011-2022 走看看