zoukankan      html  css  js  c++  java
  • linux环境下kettle部署(JDK安装配置,kettle安装配置,资源库配置,定时执行job)

    linux环境下kettle部署(JDK安装配置,kettle安装配置,资源库配置,定时执行job)

    一.部署准备

    1.1 java安装(略)

    1.2 JDK配置

            1.     命令行键入“cd /etc”进入etc目录

    2.     命令行键入“vi profile”打开profile文件

    3.     敲击键盘ctrl+F到文件末尾

    4.     在末尾处,即第一个~的地方,敲击键盘将以下内容输入到文件

    export JAVA_HOME=/usr/java/jre1.6.0_45

    export PATH=$JAVA_HOME/bin:$PATH

    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

         5.     键盘敲击exc,命令行键入“:wq”,保存文件;

       JDK配置成功:

          1. 命令:java -version.出现版本信息

          2. 命令:echo ${JAVA_HOME}出现配置路径

    二.kettle部署

    1.在linux下某个目录下创建一个文件夹,将你从官网上下载的kettle(我的是pdi-ce-5.0.1.A-stable.zip)解压后放在该文件夹

     下。

    2.在解压的路径下找到kitchen.sh所在的路径,进入该目录,通过chmod +x *.sh赋予.sh文件执行权限。

    下面是详细说明:

    键入./kitchen.sh,看输入信息

    BASH:/ kitchen.sh的:权限被拒绝

    从上面可以看出kitchen.sh缺少执行权限,我们再次进入看看文件盒文件夹的权限

    从上面可以看出,此目录下面的.sh文件都没有执行权限(X),接下来我们给这个文件夹下面的所有.sh文件赋执行的权限

    由上面的我们可以看出,赋权成功!

    再次./kitchen.sh,回车 看输出信息--

    可以看到上面出现 -rep,-user,-pass 这些kettle中的帮助信息,说明kettle部署成功!

    3.输入命令./kitchen.sh。如果出现帮助信息说明部署成功。

    4.配置资源库

    用数据库作用kettle资源库会在数据库中建立很多表,所以就选择用文件资源库的方式。如果单纯的使用文件方式而非文件资源库的方式,在job引 用转换的时候要选择文件本地路径,从windows移植到linux中路径就出现问题,虽然可以手动修改一下,但是每次都修改就烦人了。

     

     

     使用文件资源库就简单多了。

    当然,使用资源库就需要上传.kettle文件夹到linux,Windows中的.kettle文件夹在Administrator中。如果在 linux中使用过kettle的话,在用户目录下会自动建好.kettle文件夹,如果没有使用过,可能还没有这个文件夹,那就手动创建。不过创建了也 并不可见。位置在/home/user/.kettle。我的是在kettle用户根目录下。.kettle文件夹是隐藏的通过“ls -a”命令查看隐藏文件夹。

    我的资源库内容:repositories.xml

    1. <?xml version="1.0" encoding="UTF-8"?>  
    2. <repositories>  
    3.   <repository>    <id>KettleFileRepository</id>  
    4.     <name>fileRepository</name>  
    5.     <description>filereposity</description>  
    6.    <base_directory>C&#x3a;&#x5c;Data&#x5c;kettleRepository</base_directory>  
    7.     <read_only>N</read_only>  
    8.     <hides_hidden_files>N</hides_hidden_files>  
    9.   </repository>  </repositories>  

     <base_directory>部分是在windows下的资源库路径,上传到linux中需要改为linux下的资源库路径。然后可以将windows下设计好的转换和job都放到这个文件夹下。

    Xml代码  收藏代码
    1. <?xml version="1.0" encoding="UTF-8"?>  
    2. <repositories>  
    3.   <repository>    <id>KettleFileRepository</id>  
    4.     <name>fileRepository</name>  
    5.     <description>filereposity</description>  
    6.    <base_directory>/home/kettle/etl_kettle/kettle/etl_kettle/job</base_directory>  
    7.     <read_only>N</read_only>  
    8.     <hides_hidden_files>N</hides_hidden_files>  
    9.   </repository>  </repositories>  

    最后是调用job脚本:/opt/kettle/data-integration/kitchen.sh -rep=fileRepository -job=testjob

    指定资源库ID和job名称。

    我的是获取svn上的路径。所以需要在linux下安装svn。

    命令:svn co http://svn.1234.cn:1111/svn/trunk/etl_kettle

    更新svn文件夹的命令:svn up 

    svn的路径是放在linux下的资源库路径 下

    5.手动执行.sh脚本例子:

    mmmm.sh

    #!/bin/bash

    #导入中文编码
    export LANG="en_US.UTF-8"

    #读取执行环境变量
    #source ~/.bash_profile

    #设置日期变量
    to_date=`date +%Y%m%d`

    ##go to kettle soft dir
    /home/kettle/etl_kettle/data-integration/kitchen.sh -rep etl_kettle -user admin -pass -dir -job job/ETL_mmmm_JOB -level=basic >/home/kettle/etl_kettle/etl_log/mmmm_${to_date}.log

    echo "执行完成!"

    命令:.mmmm.sh

    6.设定crontab定时执行任务(ubuntu)

    cron是一个Linux下的后台进程,用来定期的执行一些任务。因为我用的是Ubuntu,所以这篇文章中的所有命令也只能保证在Ubuntu下有效,但其他系统应该也差不多。

    想要让cron执行你指定的任务,首先就要编辑crontab文件。crontab是一个文本文件,用来存放你要运行的命令。你可以以下命令

    1. crontab -e  

    来打开你的用户所属的crontab文件。第一次用这个命令,会让你选择文本编辑器,我选的是vim。选定的编辑器也可以使用

    1. select-editor  

    命令来更改。这点命令行中已经有足够的提示,就不多说了。

    打开后的crontab文件类似这种样子:

    1. # m h  dom mon dow   command  
    2. */2 * * * * date >> ~/time.log  

    第二行是我为了测试写的一个定期任务,它的意思是,每隔两分钟就执行 date >> ~/time.log 命令(记录当前时间到time.log文件)。你可以把它加入你的crontab中,然后保存退出。可以在第二行写你自己的设定任务。

    我的任务:

    40 16 * * * /home/kettle/etl_kettle/kettle/etl_kettle/shell/etl_mmmm.sh &

    意思是在/home/kettle/etl_kettle/kettle/etl_kettle/shell/这个目录下在后台(&是后台执行的意思)执行etl_mmmm.sh这个文件

    保存了crontab之后,我们还需要重启cron来应用这个计划任务。使用以下命令:

    1. sudo service cron restart  

    下面稍微解释下crontab中每行的含义。crontab中的每一行代表一个定期执行的任务,分为6个部分。前5个部分表示何时执行命令,最后一 个部分表示执行的命令。每个部分以空格分隔,除了最后一个部分(命令)可以在内部使用空格之外,其他部分都不能使用空格。前5个部分分别代表:分钟,小 时,天,月,星期,每个部分的取值范围如下:

    分钟          0 - 59

    小时          0 - 23

    天              1 - 31

    月              1 - 12

    星期          0 - 6       0表示星期天

    除了这些固定值外,还可以配合星号(*),逗号(,),和斜线(/)来表示一些其他的含义:

    星号          表示任意值,比如在小时部分填写 * 代表任意小时(每小时)

    逗号          可以允许在一个部分中填写多个值,比如在分钟部分填写 1,3 表示一分钟或三分钟

    斜线          一般配合 * 使用,代表每隔多长时间,比如在小时部分填写 */2 代表每隔两分钟。所以 */1 和 * 没有区别

                      */2 可以看成是能被2整除的任意值。

    以下是一些例子(省略了命令部分):

    1. * * * * *                  # 每隔一分钟执行一次任务  
    2. 0 * * * *                  # 每小时的0点执行一次任务,比如6:00,10:00  
    3. 6,10 * 2 * *            # 每个月2号,每小时的6分和10分执行一次任务  
    4. */3,*/5 * * * *          # 每隔3分钟或5分钟执行一次任务,比如10:03,10:05,10:06  

    以上就是在cron中加入计划任务的基本知识。因为cron中的任务基本就是执行命令行,所以当然也会有权限问题。以上例子中的任务就是以你当前登录用户的权限执行的,如果你需要以root用户执行某个任务,可以在crontab前加上sudo。

    1. sudo crontab -e  

    顺带一提,crontab文件对每个用户都是不同的,所以刚才设置的定期看时间的任务,在这里是看不到的。因为我们没有为root用户增加这样的计划任务。

  • 相关阅读:
    pdf文件的导入导出
    扩展方法用法整理
    c#批量插入数据库Demo
    Linq表达式和Lambda表达式用法对比
    Lambda表达式的诞生过程
    LeetCode77. Combinations(剑指offer38-2)
    LeetCode47.Permutations II(剑指offer38-1)
    LeetCode567. Permutation in String
    LeetCode46. Permutations
    图解HTTP-1.web和网络基础
  • 原文地址:https://www.cnblogs.com/zzjhn/p/5683812.html
Copyright © 2011-2022 走看看