zoukankan      html  css  js  c++  java
  • 1 datax 安装和简单使用

    DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
     
    第一步: 下载datax 工具包(直接下载源码编译的时候,老是报错)
        下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
    $ python datax.py {YOUR_JOB.json}
     
    第二步:进入bin目录下 新建配置文件,可以自己新建也可以通过命令生成模板
    可以通过命令查看配置模板: python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
     
    python datax.py -r streamreader -w streamwriter
     
    第三步:把上面生成json内容保存在 test.json 文件后,修改里面的内容
    {
      "job": {
        "content": [
          {
            "reader": {
              "name": "streamreader",
              "parameter": {
                "sliceRecordCount": 10,
                "column": [
                  {
                    "type": "long",
                    "value": "10"
                  },
                  {
                    "type": "string",
                    "value": "hello,你好,世界-DataX"
                  }
                ]
              }
            },
            "writer": {
              "name": "streamwriter",
              "parameter": {
                "encoding": "UTF-8",
                "print": true
              }
            }
          }
        ],
        "setting": {
          "speed": {
            "channel": 5
           }
        }
      }
    }
     
     
    第四步: 启动datax
    python datax.py ./test.json
     
  • 相关阅读:
    面向对象(metaclass继承高级用法)
    建表和删表(sqlalchemy框架)
    单表操作
    认证,权限
    协程,twisted
    定制起始url(scrapy_redis)
    浅谈深度优先和广度优先(scrapy-redis)
    scrapy-redis(调度器Scheduler源码分析)
    scrapy-redis
    xpath
  • 原文地址:https://www.cnblogs.com/spicy/p/11155507.html
Copyright © 2011-2022 走看看