zoukankan      html  css  js  c++  java
  • 《分布式数据仓库最佳实践》学员答疑实录(2)

    一、前言

    本文是《***分布式数据仓库最佳实践***》视频课程的学员答疑实录,学员答疑过程中,针对共性问题和具有代表性的问题,分享在此,算是立此存照。课程大纲见:《分布式数据仓库最佳实践-目录篇》,课程地址:网易云课堂

    二、正文

    2.1 问题类型:

    事实表设计:累积事实表,是否需要拆分成不同的事实表。

    2.2 问题描述

    **关键词:**业务系统中的累积事实表,数仓中是否需要拆分成不同的事实表;

    详情:
    胖哥,你好,想问下如果业务系统的表是一张累积事实表(交易可能有多个过程,加入购物车、下单、支付、评论,但是业务系统是一张大表),在数仓的时候需要将其拆分成多张事务事实表吗?

    2.3 胖哥观点

    关键词:需要;
    详情
    学员 2019/2/20 14:33:40
    目前是将其拆分
    便于统计,但是发现因为很多维度都是相同的,除了存储多些,其他到时没有影响
    胖子哥 2019/2/20 14:34:26
    这里面有一个判断标准:数仓是面向分析过程的,提供的是尽可能多的场景的覆盖。
    学员 2019/2/20 14:34:40
    好的
    胖子哥 2019/2/20 14:34:41
    这里面涉及另外一个问题,性能优化
    学员 2019/2/20 14:34:58
    分成多个事实表对于后面汇聚是容易的
    胖子哥 2019/2/20 14:35:40
    所以。1.最细粒度,必须拆分;2.从性能优化的视角,可以考虑做融合事实表(通常叫宽表);二者同时存在。
    1.是基础,覆盖分析型的场景和需求;2.是特定目的的特定应用
    学员 2019/2/20 14:37:23
    我现在是单事实表和累积事实表并存,累积便于去进行漏斗这样汇聚
    主要是时长漏斗

    胖子哥 2019/2/20 14:37:45
    可以。
    好多时候,可以逆推,当你发现自己的设计不好用的时候,就是需要反思设计的时候。
    学员 2019/2/20 15:10:47
    可以
    胖子哥 2019/2/20 15:11:08
    得存档,否则过后就忘。
    学员 2019/2/20 15:14:12
    还有个问题,就是建事实表时,事实表除了维度ID,还会退化维度一些关键查询便于识别的属性,例如产品ID、产品名称,这种操作可行吗
    胖子哥 2019/2/20 15:14:40
    退化维度是合理设计得一部分。
    没问题。

    三、未完待续

    本文是《***分布式数据仓库最佳实践***》视频课程的学员答疑实录,学员答疑过程中,针对共性问题和具有代表性的问题,分享在此,算是立此存照。课程大纲见:《分布式数据仓库最佳实践-目录篇》,课程地址:网易云课堂

  • 相关阅读:
    Silverlight 自定义表格 转
    Application_BeginRequest事件过滤恶意提交
    存储过程学习1
    我是博客园新博客
    努力将SQL Server像玩游戏一样熟练
    【Demo 0003】支持交互的应用
    【Demo 0003】支持交互的应用
    linux终端快捷键
    vim与windows/linux之间的复制粘贴小结
    vimgrep简单使用
  • 原文地址:https://www.cnblogs.com/hadoopdev/p/10407255.html
Copyright © 2011-2022 走看看