zoukankan      html  css  js  c++  java
  • 数据仓库-(1)数仓主题分享记录

    本文记录木东居士数仓主题分享内容

    分享地址:https://www.bilibili.com/video/av96469217

    导读

    技能干货:主题域划分规则;数据集市与主题域如何衔接;数据治理之数据标准化;数据中台;实时数仓;传统数仓与互联网数仓异同

    职业发展:数仓困境-善战者无赫赫战功;除了技术我一无所有

    彩蛋:SQLboy的自我救赎

    1. 主题域划分规则

    主题域:将业务过程或者维度进行抽象的集合;特点:面向分析、业务抽象的、通用的、长期维护(业务域 or 数据域?业务主题eg:国内电商、境外电商;数据主题eg:订单行为、推广行为等,这两个构成的业务数据矩阵类似维度建模中的企业总线矩阵

    2. 数据集市与主题域如何衔接

    类似阿里的结构ODS ->DWD -> DWS ->TDM标签层 ->ADS应用层(参数据中台

    数据集市相当于在DWS汇总层上汇总多业务的宽表

      

     3. 数据治理之数据标准化

    1)通用埋点标准化:场景SDK、H5、小程序等;格式用户信息、设备信息、时间信息、数据稽核信息等

    2)日志上报标准化:上报链路、数据延迟、数据准确性

    3)数据处理标准化:离线+实时;规范-模型、表、脚本、计算、存储

    4)对外服务标准化:元数据、指标字典、在线服务、即席查询

    怎么评价数仓模型的好坏?存储大小、耗费资源、加工路径深度

     4. 数据中台

     数据中台是一种战略选择和组织形式。组织+数据+服务+方法论;数据仓库是中台的一部分

    5. 实时数仓

    与离线那一套框架其实是一样的

    spark、flink的最终落地都是SQL

     6.传统数仓与互联网数仓异同

     

     tips1-职业发展

    平台化趋势:可以全面发展数仓+数分+数挖

    不要把自己局限在SQL,多去接触新工具

    站在产品的角度去做数仓,了解产品+运营

    tips2-费曼学习法

    确定学习目标 ->模拟教学 ->回顾 ->简化

    tips3-SQLBoy的自我救赎

    每个人都能有自己的IP,在打造IP的过程中,懂得如何做运营,如何打磨内容,如何交流表达,如何做社群维护,如何提升个人形象

  • 相关阅读:
    linux 命令——19 find (转)
    linux 命令——18 locate (转)
    linux 命令——17 whereis(转)
    linux 命令——16 which(转)
    linux 命令——15 tail (转)
    linux 命令——14 head (转)
    Java for LeetCode 038 Count and Say
    Java for LeetCode 037 Sudoku Solver
    Java for LeetCode 036 Valid Sudoku
    Java for LeetCode 035 Search Insert Position
  • 原文地址:https://www.cnblogs.com/foolangirl/p/14227177.html
Copyright © 2011-2022 走看看