zoukankan      html  css  js  c++  java
  • 数据仓库系列之ETL过程和ETL工具

    在这篇文章中我们将学习了解数据仓库的ETL过程以及实用的ETL工具。

          一、什么是ETL?

          构建数据仓库的核心是建模,在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线。从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,Load)。

           通常数据抽取工作分抽取、清洗、转换、装载几个步骤:

     

            抽取主要是针对各个业务系统及不同服务器的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取和缓慢渐变的规则。

           清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等数据质量问题,允许通过数据抽取设定的数据质量规则,将有问题的记录先剔除出来,根据实际情况调整相应的清洗操作。

           转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过ETL工具可视化拖拽操作可以直接使用标准的内置代码片段功能、自定义脚本、函数、存储过程以及其他的扩展方式,实现了各种复杂的转换,并且支持自动分析日志,清楚的监控数据转换的状态并优化分析模型。

           装载主要是将经过转换的数据装载到数据仓库里面,可以通过直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。

           二、   数据仓库ETL工具有哪些?

           ETL过程我们简单介绍了一下,接下来我们来了解市面上数据仓库解决方案。以下五种ETL工具是我基本接触过的产品,个人根据产品对应官网以及提供的资料总结,对比的五种ETL工具(SEDWA、kettle、OracleGoldengate、informatica、talend)的比较,目前对于这些工具也是初步了解,后续根据实际的体验学习后再来进一步总结丰富对比维度信息。注意工具排名不分先后,个人认为技术没有绝对的好坏,关键是看大家使用的场景。实际工作中选购满足公司需要的产品即可。 

     

  • 相关阅读:
    Java实现 蓝桥杯VIP 算法训练 校门外的树
    Java实现 蓝桥杯VIP 算法训练 统计单词个数
    Java实现 蓝桥杯VIP 算法训练 统计单词个数
    Java实现 蓝桥杯VIP 算法训练 开心的金明
    Java实现 蓝桥杯VIP 算法训练 开心的金明
    Java实现 蓝桥杯 算法训练 纪念品分组
    Java实现 蓝桥杯 算法训练 纪念品分组
    Java实现 蓝桥杯VIP 算法训练 校门外的树
    Java实现 蓝桥杯VIP 算法训练 统计单词个数
    Java实现 蓝桥杯VIP 算法训练 开心的金明
  • 原文地址:https://www.cnblogs.com/tdskee/p/13607478.html
Copyright © 2011-2022 走看看