DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
具体介绍这里不再赘述,官网和其他博客都很多:https://www.jianshu.com/p/f5f0dc99d5ab
1.下载datax安装包及部署步骤
官网:https://github.com/alibaba/DataX/blob/master/userGuid.md
这里结合centos7搭建dolphinscheduler集群说说dolphinscheduler集成datax,这里也很简单,datax安装目录和dolphinscheduler配置目录保持一致即可
这里解压到/opt/soft/目录下
tar -zxvf datax.tar.gz -C /opt/soft/
2.在DolphinScheduler后台配置datax任务,这里以mysql数据源为例,mysql->mysql,这里演示数据由test1->test2->test3中,需要配置两个任务,第一个任务test1->test2,第二个任务test2->test3,第一个任务完成后执行第二个任务,数据流配置如下:
首先在数据源中心配置mysql数据源
然后在项目管理里面创建数据流任务,在画布上拉去datax类型配置第一个任务,选择刚才配置的mysql数据源
配置第二个任务
3.数据流上线,并配置定时调度策略
任务调度后执行成功:
需要注意配置租户在worker机器上添加对应的user,window打包dolphinscheduler时脚本在Linux上执行一次可以看:windows打包脚本出现 /bin/sh^M: 坏的解释器: 没有那个文件或目录 错误