zoukankan      html  css  js  c++  java
  • 1 datax 安装和简单使用

    DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
     
    第一步: 下载datax 工具包(直接下载源码编译的时候,老是报错)
        下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
    $ python datax.py {YOUR_JOB.json}
     
    第二步:进入bin目录下 新建配置文件,可以自己新建也可以通过命令生成模板
    可以通过命令查看配置模板: python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
     
    python datax.py -r streamreader -w streamwriter
     
    第三步:把上面生成json内容保存在 test.json 文件后,修改里面的内容
    {
      "job": {
        "content": [
          {
            "reader": {
              "name": "streamreader",
              "parameter": {
                "sliceRecordCount": 10,
                "column": [
                  {
                    "type": "long",
                    "value": "10"
                  },
                  {
                    "type": "string",
                    "value": "hello,你好,世界-DataX"
                  }
                ]
              }
            },
            "writer": {
              "name": "streamwriter",
              "parameter": {
                "encoding": "UTF-8",
                "print": true
              }
            }
          }
        ],
        "setting": {
          "speed": {
            "channel": 5
           }
        }
      }
    }
     
     
    第四步: 启动datax
    python datax.py ./test.json
     
  • 相关阅读:
    sql面试题
    C#基础(1)
    Java中的冒泡排序(减少比较次数)
    Java中面向对象的分拣存储
    Java中分拣存储的demo
    XML序列化
    C#读取csv文件使用字符串拼接成XML
    Java中HashMap(泛型嵌套)的遍历
    Java 中List 集合索引遍历与迭代器遍历
    java 中的try catch在文件相关操作的使用
  • 原文地址:https://www.cnblogs.com/spicy/p/11155507.html
Copyright © 2011-2022 走看看