zoukankan      html  css  js  c++  java
  • kettle的资源库

    在kettle中的转换或者作业等资源的存储的仓库称为资源库:分为文件资源库、数据库资源库。

    一个转换或者作业可以属于某个资源库或者一个单独的文件形态存在。

    一、数据库资源库

    1.1在mysql中创建一个数据库作为数据库资源库

    1.2创建数据库资源库工具--》资源库--》连接资源库--》点击加号--》选择创建数据库资源库

    因为我们要使用mysql作为资源库,所以kettle需要连接到mysql,也就是说需要mysql的驱动包,我们要把驱动包拷贝到kettle的lib目录下。

     

    创建数据库连接并且通过测试

     

    选择创建或更新

    1.3创建完成后,验证数据库中是否创建了很多的表

    看到这些表,就表示创建完成了一个数据库资源库了。

    1.4创建一个转换,并且创建一个DB连接,验证这个不共享的DB连接能不能在资源库中共享

    经过测试是可以的。

    二、文件资源库

    工具--》资源库--》断开资源库

    使用上面的步骤来退出数据库资源库

    2.1创建文件资源库

    和上面创建数据库资源库的方式一样,但是选择的是创建文件资源库。

    2.2在文件资源库下,创建一个DB连接,验证是否能在文件资源库内共享

    答案是可以的

    三、需求:将mysql中的表导出成txt文件

    在ldp_huyu数据库中有如下的一张person表

    3.1建立如下图的转换

    其中表输入的配置:

    其中文本文件输出的配置:

    3.2运行这个转换

    最后生成文件

     四、数据库资源库和文件资源库的比较

    使用数据库来管理,更容易跨平台和共享,但是在版本控制方面不如文件资源库好,并且数据库需要走网络,网络连接的异常也会导致job失败

    使用文件资源库比较麻烦的是跨平台,一般和svn等版本控制的工具结合使用。

  • 相关阅读:
    数据结构化
    爬取校园新闻首页的新闻
    网络爬虫基础练习
    Hadoop综合大作业
    理解MapReduce
    熟悉常用的HBase操作
    熟悉常用的HDFS操作
    爬虫大作业
    数据结构化与保存
    爬取校园新闻首页的新闻
  • 原文地址:https://www.cnblogs.com/dongdone/p/5729718.html
Copyright © 2011-2022 走看看