zoukankan      html  css  js  c++  java
  • 大数据同步技术datax学习和使用

    • 学习花费2h
      • 一、安装
        • 1.安装JDK1.8及以上(推荐低版本对计算机的资源消耗少)
        • 2.安装python2.6.1
          • 添加环境变量
            • 使用的是python3和python2在用户级别的环境变量中的添加
              • 环境变量图示
          • 复制命名
            • 备注:由于python2.6.1无pip,而本人使用的过程项目对于python2没有安装需求,所以这里没有安装
            • 这里对python2.6.1中,复制python.exe文件,命名为python2.exe
          • 在cmd里切换调用
            • 切换调用
            • 提示:由于pip没有复制重命名,所以在cmd,pip时是在给python3.6.5安装插件
        • 3.安装datax
      • 二、自检
        • 进入bin目录,进行自检
          • 进入bin目录
            • 图示
          • 进行自检
            • 自检脚本:    python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json
            • 本机命令
              • python2 D:装机软件python编程大数据采集技术datax/bin/datax.py D:装机软件python编程大数据采集技术datax/job/job.json
            • cmd乱码解决:输入CHCP 65001
            • 自检截图
      • 三、查看配置模板进行配置
        • 前提:要在bin目录下
        • 查看配置文件
          • python2 datax.py -r streamreader -w streamwriter
          • 图示
        • 在job文件夹下,新建json文件
          • 图示1
          • 按自己的需求配置json文件
            • 示例
              • {
                "job": {
                "content": [
                {
                "reader": {
                "name": "streamreader",
                "parameter": {
                "sliceRecordCount": 10,
                "column": [
                {
                "type": "long",
                "value": "10"
                },
                {
                "type": "string",
                "value": "hello,你好,世界-DataX"
                }
                ]
                }
                },
                "writer": {
                "name": "streamwriter",
                "parameter": {
                "encoding": "UTF-8",
                "print": true
                }
                }
                }
                ],
                "setting": {
                "speed": {
                "channel": 5
                }
                }
                }
                }
      • 四、运行Job
        • 命令
          • python2 datax.py D:装机软件python编程大数据采集技术datax/job/stream2stream.json
        • 运行截图1
        • 运行截图2
    • 使用4h(主要在调试)
      • 小练习csv数据导入mysql
        • 准备工作
          • CSV表
            • 图示
          • 创建数据库和表
            • 图示
        • 步骤
        • 遇到的问题及解决方案
          • 1、一直报json文件配置不正确
            • 原因是因为在编辑json文件时,某些字符编码发生了变化
            • 解决方案:
              • (1)从官方文档找到demo,创建json文件
              • (2)采用Hbuilder X进行编辑,检查错误
          • 2、数据库连接不上的问题
            • 原因:datax官方支持的mysql5.0版本的驱动和连接的jdbcUrl
            • 解决方案
              • 更换本机的8.0驱动
              • 修改jdbcUrl
          • 3、插入数据库失败
            • 原因:设计表时:ID设置为不为空,没有设置为自动递增
          • 4、读取的数据有乱码
            • 设置
              • "encoding": "UTF-8"
              • "encoding": "GBK"
          • 5、json配置文件错误
            • 图示1和图示2是mysql写入mysql中的json文件配置,有一个地方很容易发生错误
              • 就是在jdbcURL这里,reader里的有[],writer里的没有[]
            • 给的启示就是,多注意细节,尽量使用命令查看模板
              • python2 datax.py -r txtfilereader -w mysqlwriter
            • 图示1
            • 图示2
  • 相关阅读:
    MySQL批量更新字段url链接中的域名
    巧用Win+R
    斯坦福高效睡眠法
    chkconfig: command not found
    Nginx(./configure --help)
    Ubuntu16.04配置Tomcat的80端口访问
    Binary Tree Level Order Traversal
    java——Arrays.asList()方法
    python 发送邮件
    常用邮件协议
  • 原文地址:https://www.cnblogs.com/quxiangjia/p/12458427.html
Copyright © 2011-2022 走看看