zoukankan      html  css  js  c++  java
  • 数仓设计

    (简答题)1.如果让你来设计数据仓库并搭建相关可视化报表,你会考虑哪些问题。

    1. 数据推送方式与批次,是推送增量还是推送全量,是一天一次还是一天两次;
    2. 推送全量的就全删全插,推送增量的涉及到时间拉链的取法,是滚动时间还是平滑时间;
    3. 多次推送的还涉及到数据去重的问题;
    4. 从源端推送过来的数据还需要考虑脏数据;
    5. 大致框架如下:
    src --> landing层(落地) --> staging层(做逻辑处理:脏数据、重数据) --> persistent层(保留所有有效数据)
    --> archive (同时备份源数据)
    #------------------------------------------------------------------------------
    6. 在persistent层上再进行主数据和维度表的开发,考虑需要取哪些业务字段,是从当前架构看历史还是历史架构看历史
    7. 最后的可视化报表,可以用power BI制作,也可以用tablea, 考虑哪种呈现方式更加符合业务需求.

    (简答题)2.在数据处理过程中,如何保证自己数据的准确性。
    源端有所有数据,最后persistent层也保留所有数据
    1. 两端的count(1)个数是相等的;
    2. 可以抽取数字类型字段取平均值,这样能保证字段没有错位

    欲望才是原动力
  • 相关阅读:
    「LOJ #6500」「雅礼集训 2018 Day2」操作
    「CEOI2013」Board
    CF407B Long Path
    poj 2503 Babelfish 用trie树做
    poj 3414 Pots搜索BFS
    POJ2001 Shortest Prefixes 用trie树实现
    poj3630Phone List用trie树实现
    poj1797Heavy Transportation最大生成树
    hoj题双重筛法
    poj1338 Ugly Numbers
  • 原文地址:https://www.cnblogs.com/Nooni/p/13303409.html
Copyright © 2011-2022 走看看