zoukankan      html  css  js  c++  java
  • 1 datax 安装和简单使用

    DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
     
    第一步: 下载datax 工具包(直接下载源码编译的时候,老是报错)
        下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
    $ python datax.py {YOUR_JOB.json}
     
    第二步:进入bin目录下 新建配置文件,可以自己新建也可以通过命令生成模板
    可以通过命令查看配置模板: python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
     
    python datax.py -r streamreader -w streamwriter
     
    第三步:把上面生成json内容保存在 test.json 文件后,修改里面的内容
    {
      "job": {
        "content": [
          {
            "reader": {
              "name": "streamreader",
              "parameter": {
                "sliceRecordCount": 10,
                "column": [
                  {
                    "type": "long",
                    "value": "10"
                  },
                  {
                    "type": "string",
                    "value": "hello,你好,世界-DataX"
                  }
                ]
              }
            },
            "writer": {
              "name": "streamwriter",
              "parameter": {
                "encoding": "UTF-8",
                "print": true
              }
            }
          }
        ],
        "setting": {
          "speed": {
            "channel": 5
           }
        }
      }
    }
     
     
    第四步: 启动datax
    python datax.py ./test.json
     
  • 相关阅读:
    DFS
    关于memset

    SpringCloud(六)Ribbon负载均衡
    每日算法练习(2020-1-27)
    SpringCloud(五)Eureka Server高可用集群与常见问题
    SpringCloud(四)Eureka服务注册与发现
    SpringCloud(三)常用系统架构技术讲解
    Redis(八)
    Redis(七)
  • 原文地址:https://www.cnblogs.com/spicy/p/11155507.html
Copyright © 2011-2022 走看看