zoukankan      html  css  js  c++  java
  • KETTLE——初见KETTLE

    (PS:这是很早以前在CSDN上发过的,那个账号不想用了,所以搬过来)

    就在前一段时间,因为公司需要突然被老大告知要用一个ETL工具,第一次知道这么个工具,完全不知道是做什么的。大概问了一下,说是一种数据转化工具。这就开始了:

    1.了解什么是ETL:百度百科ETL

    2.查找合适的ETL工具:支持Oracle、MySQL、开源,于是我遇到了KETTLE;

    3.开始了解KETTLE,(连接为KETTLE的开源社区网)

    4.下载KETTLE(PS:同样都是要学习,所以我选择了目前最新的版本:pdi-ce-6.0.1.0-386,一般新的版本网上的资料可能会比较少,但通常都可以学习参考)

    5.开始找学习文档和资料,比较官方的文档我是没有找到(如果谁有请发我一份),网上的博客倒是不少大多数是4版本的,虽然有一些转载的人不对其测试,原创的人写的不够详细当然也有详细的,但总归还是谢谢他们的分享精神让我对其有了大概的了解。(PS:对于那些我就不贴连接了,网上铺天盖地的博客)。

    以上基本全是网上的东西,作为KETTLE工具新手的我,大概说说我的理解和学习的过程(有误请谅解):

    KETTLE,一个抽取+转换+加载的工具,用JAVA开发,因此运行也需要JAVA的环境。

    我把这个工具大体上分为了六块内容:资源库、数据抽取、映射转换、数据写入、调度、增量处理。

    资源库:主要是KETTLE存储基本自身文件的地方,如我们连接数据库、自己写的转换等文件。KETTLE自身支持两种方式的存储:数据库资源库和文件资源库,还有一种Pentaho资源库,需要Pentaho的插件。

    数据抽取:数据源。

    映射转换:个人觉得是最核心的东西,这部分是处理真实业务的关键所在。

    数据写入:输出源。

    调度:大体上有两种方式,操作系统调度和Pentaho BI Server,网上还有很多的比如WEB调度之类的。

    增量处理:主要是四种思路,时间戳方式、快照方式、触发器方式、日志方式。

    以上是我个人对于KETTLE的学习的分法,我也是按照这六块内容学习的,文言之处还望包含。

  • 相关阅读:
    lombok-@Accessors注解
    spring boot 当参数传入开头多个0时,报错:JSON parse error: Invalid numeric value: Leading zeroes not allowed
    linux查看历史操作记录并且显示执行时间
    IDEA中mybatis插件自动生成手写sql的xml文件
    CPU核数和load average的关系
    Jenkins--Credentials添加证书从git上拉代码
    解决输入git branch 进入编辑状态,mac下出现END,无法返回
    Git log和git reflog
    SpringCloud入门之常用的配置文件 application.yml和 bootstrap.yml区别
    springboot定时任务
  • 原文地址:https://www.cnblogs.com/ben-mario/p/11429201.html
Copyright © 2011-2022 走看看