zoukankan      html  css  js  c++  java
  • 常用的etl工具比较

    ETL是什么?

    ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。(数据仓库结构)通俗的说法就是从数据源抽取数据出来,进行清洗加工转换,然后加载到定义好的数据仓库模型中去。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节,其设计的好坏影响生成数据的质量,直接关系到BI项目的成败。

    目前比较常用的etl工具有DataPipeline,Kettle,Talend,Informatica

    易用性:

    DataPipeline: 有非常容易使用的 GUI,具有丰富的可视化监控;

    Kettle: GUI+Coding;

    Informatica: GUI+Coding,有GUI,但是要专门的训练;

    Talend:GUI+Coding,有 GUI 图形界面但是以 Eclipse 的插件方式提供;

    技能要求:

    DataPipeline:操作简单,无技术要求;

    Kettle: ETL设计, SQL, 数据建模 ;

    Informatica: ETL设计, SQL, 数据建模;

    Talend:需要写Java;

    底层架构:

    DataPipeline:分布式,可水平扩展;

    Kettle:主从结构非高可用;

    Informatica:分布式;

    Talend:分布式;

    数据实时性:

    DataPipeline:支持异构数据源的实时同步,速度非常快;

    Kettle:不支持实时数据同步;

    Informatica:支持实时,效率较低;

    Talend:支持实时处理,需要购买高级版本,价格贵;

    技术支持:

    DataPipeline:本地化原厂技术支持;

    Kettle:无;

    Informatica:主要在美国;

    Talend:主要在美国;

    相关链接文档:https://wenku.baidu.com/view/6931cb1659eef8c75fbfb358.html

  • 相关阅读:
    第010讲~第011讲:一个打了激素的数组
    练习15--阅读文件
    第007讲~第009讲:了不起的分支和循环
    第006讲:Python之常用操作符
    第005讲:闲聊之python的数据类型
    练习14--提示和传递
    第004讲:改进我们的小游戏
    ICPC Central Europe Regional Contest 2019 H. Ponk Warshall
    2019 ICPC Asia Yinchuan Regional G. Pot!!(线段树 区间更新 区间查询)
    CF1286A Garland
  • 原文地址:https://www.cnblogs.com/minong/p/11507096.html
Copyright © 2011-2022 走看看