zoukankan      html  css  js  c++  java
  • 数据仓库系列之ETL过程和ETL工具

    在这篇文章中我们将学习了解数据仓库的ETL过程以及实用的ETL工具。

          一、什么是ETL?

          构建数据仓库的核心是建模,在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线。从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,Load)。

           通常数据抽取工作分抽取、清洗、转换、装载几个步骤:

     

            抽取主要是针对各个业务系统及不同服务器的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取和缓慢渐变的规则。

           清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等数据质量问题,允许通过数据抽取设定的数据质量规则,将有问题的记录先剔除出来,根据实际情况调整相应的清洗操作。

           转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过ETL工具可视化拖拽操作可以直接使用标准的内置代码片段功能、自定义脚本、函数、存储过程以及其他的扩展方式,实现了各种复杂的转换,并且支持自动分析日志,清楚的监控数据转换的状态并优化分析模型。

           装载主要是将经过转换的数据装载到数据仓库里面,可以通过直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。

           二、   数据仓库ETL工具有哪些?

           ETL过程我们简单介绍了一下,接下来我们来了解市面上数据仓库解决方案。以下五种ETL工具是我基本接触过的产品,个人根据产品对应官网以及提供的资料总结,对比的五种ETL工具(SEDWA、kettle、OracleGoldengate、informatica、talend)的比较,目前对于这些工具也是初步了解,后续根据实际的体验学习后再来进一步总结丰富对比维度信息。注意工具排名不分先后,个人认为技术没有绝对的好坏,关键是看大家使用的场景。实际工作中选购满足公司需要的产品即可。 

     

  • 相关阅读:
    NFS(Network File System)即网络文件系统 (转)
    抓包神器 tcpdump 使用介绍 (转)
    sms短信网关对接
    spring 事务的传播级别和隔离级别
    持续集成是什么?
    理解Cookie和Session机制
    使用df -h命令查看磁盘空间使用率不算高,还有很多空余空间,但是创建文件或写入数据时一直报错磁盘写满
    删除文件后,磁盘空间没有释放的处理记录
    Springboot启动原理解析
    使用idea创建springboot项目
  • 原文地址:https://www.cnblogs.com/tdskee/p/13607478.html
Copyright © 2011-2022 走看看