zoukankan      html  css  js  c++  java
  • Kettle解决方案: 第五章 ETL相关知识

    早期, ETL知识作为BI系统的一部分来介绍. 后来在The Data Warehouse ETL Tooket一书中, 系统性的整理了ETL的相关内容, 形成了一篇"ETL里的34个子系统"的介绍, 总结了ETL项目面临的不同任务. 
    安装类型分类其实主要分为:
    1抽取  对应原文子系统1~3
    2清洗更正 对应原文4~8
    3发布  34个子系统有13个属于这个范畴
    4管理  对应原文22~34

    5.1 抽取

    从不同数据源抽取数据.
    访问数据源的政策性风险, 安全性和性能都是挑战.
    对应子系统1,2,3 (数据剖析, 增量数据捕获, 抽取系统)

    5.2 清洗更正

    数据加载到目标数据仓库之前所做的必要的清洗和更正工作. 例如处理用户的性别, 用新的数据类型来存储管理.
    对应子系统4 (数据清洗和质量处理系统)
    子系统5(错误事件处理)
    子系统6 (审计纬度)
    子系统7 (排除重复记录系统)
    子系统8 (数据一致性)

    5.3 数据发布

    保证正确的更新/新增数据到目标数据库.
    对应
    子系统9 (缓慢变更纬度处理)
    子系统10 (代理键生成系统) :增加序列之类的.
    子系统11 (层次维度构建) 比如时间纬度, 地理纬度等
    子系统12 (特殊纬度生成系统) : 杂项纬度, 小纬度,自定义纬度等
    子系统13 (事实表加载) 单独出来是为了签到三种不同类型的事实表:
    事务粒度事实表, 周期快照事实表, 累积快照事实表
    子系统 14 代理键管道
    子系统 15 (多值维度桥接表生成系统)
    子系统 16 迟到数据处理
    子系统 17 (维度管理系统)
    子系统 18 事实表管理系统
    ...等


    5.4 管理ETL环境

    主要是作业调度, 备份系统, 数据恢复,重启 版本控制.
    生成/测试环境迁移, 并行/管道系统等.


  • 相关阅读:
    洛谷 P1850 换教室(期望dp)
    简单异或 && 洛谷 P1469 找筷子 && 洛谷 P3908 数列之异或
    2020 CSP-J复赛题解
    2018 ICPC 南京 D Country Meow(模拟退火|三分)
    佩尔方程
    块速幂/光速幂
    1436F
    反Nim游戏
    P1447 [NOI2010]能量采集(莫比乌斯反演)
    P3768 简单的数学题 (莫比乌斯反演+杜教筛)
  • 原文地址:https://www.cnblogs.com/redcoatjk/p/9229875.html
Copyright © 2011-2022 走看看