zoukankan      html  css  js  c++  java
  • 数仓设计

    (简答题)1.如果让你来设计数据仓库并搭建相关可视化报表,你会考虑哪些问题。

    1. 数据推送方式与批次,是推送增量还是推送全量,是一天一次还是一天两次;
    2. 推送全量的就全删全插,推送增量的涉及到时间拉链的取法,是滚动时间还是平滑时间;
    3. 多次推送的还涉及到数据去重的问题;
    4. 从源端推送过来的数据还需要考虑脏数据;
    5. 大致框架如下:
    src --> landing层(落地) --> staging层(做逻辑处理:脏数据、重数据) --> persistent层(保留所有有效数据)
    --> archive (同时备份源数据)
    #------------------------------------------------------------------------------
    6. 在persistent层上再进行主数据和维度表的开发,考虑需要取哪些业务字段,是从当前架构看历史还是历史架构看历史
    7. 最后的可视化报表,可以用power BI制作,也可以用tablea, 考虑哪种呈现方式更加符合业务需求.

    (简答题)2.在数据处理过程中,如何保证自己数据的准确性。
    源端有所有数据,最后persistent层也保留所有数据
    1. 两端的count(1)个数是相等的;
    2. 可以抽取数字类型字段取平均值,这样能保证字段没有错位

    欲望才是原动力
  • 相关阅读:
    vim how to set nu with 0-index instead of 1-index
    @property的介绍与使用
    X[:,0]和X[:,1]
    the best guide for git
    sorted(列表)
    Java的匿名函数
    成员变量和局部变量的区别
    Java数组合并
    Java中random的使用
    Git常见错误---git branch不显示本地分支的问题
  • 原文地址:https://www.cnblogs.com/Nooni/p/13303409.html
Copyright © 2011-2022 走看看