zoukankan      html  css  js  c++  java
  • ETL Kettle知识(一)

    1.   Kettle介绍

    1.1.  什么是 kettle

    Kettle 也叫 PDI,在2006年 Kettle 加入了开源的 BI 组织 Pentaho, 正式命名为PDI,英文全称为Pentaho Data Integeration。Kettle 是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员 MATT 在一个论坛里说的哪样:希望把各种数据放到一个壶里然后以一种指定的格式流出。

    Spoon是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan工具来运行,任务是用Kitchen来运行。Pan是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。Kitchen是一个可以运行利用XML或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。

     

    1.2.  Kettle的安装

    要运行kettle工具必须安装Sun公司的JAVA运行环境,kettle 4.2.0需要运行java 1.6或者更高版本,Kettle的下载可以到http://kettle.pentaho.org/取得最新版本。kettle不需要安装,安装好java环境后,在操作系统环境变量path中配置jre路径,把kettle工具压缩包解压后可直接使用。

     

    1.3.  运行Spoon

    下面是在不同的平台上运行 Spoon所支持的脚本:

    Spoon.bat:在windows 平台运行Spoon。

    Spoon.sh:在 Linux、Apple OSX、Solaris 平台运行 Spoon。

    1.4.  资源库

    资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。资源库有两种形式:

    一、Kettle database repository,即保存在各种常见的数据库资源库类型,用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是admin/admin和guest/guest。

    二、Kettle file repository,保存在服务器硬盘文件夹内的资源库类型,此类型的资源库无需用户进行登录,直接进行操作。

     

    当然,资源库并不是必须的,如果没有资源库,用户还可以把转换任务保存在xml文件中。为了方便管理,建议用户建立并使用数据库类型资源库Kettle database repository。

    温馨提示:

    一、在删除资源库中单个内容时,不会提示“是否确定需要删除”,需要特别注意。

    二、win7系统下,“Kettle file repository”类型资源库创建文件夹后,无法删除文件夹,不确定是Kettle工具本身的bug或者是在win7操作系统下的bug。

    三、“Kettle database repository”类型资源库虽然有需要用户和密码进行登录,但目前还没有相应的权限控制。

  • 相关阅读:
    在CentOS-6.3环境下,利用grub工具手工制作Linux U盘安装盘
    Windowns DOS For 循环实例
    Bootstrap 标签的变体 实例样式
    Bootstrap两端对齐的导航实例
    bootstrap 分页样式代码
    C# 微信扫码支付API (微信扫码支付模式二)
    AjaxFileUpload 在C#中应用
    关于百度编辑器UEditor(1.4.3)在C#.NET中的应用实例
    电脑运行状态
    网络测试
  • 原文地址:https://www.cnblogs.com/wangle1001986/p/2870094.html
Copyright © 2011-2022 走看看