zoukankan      html  css  js  c++  java
  • 大数据同步技术datax学习和使用

    • 学习花费2h
      • 一、安装
        • 1.安装JDK1.8及以上(推荐低版本对计算机的资源消耗少)
        • 2.安装python2.6.1
          • 添加环境变量
            • 使用的是python3和python2在用户级别的环境变量中的添加
              • 环境变量图示
          • 复制命名
            • 备注:由于python2.6.1无pip,而本人使用的过程项目对于python2没有安装需求,所以这里没有安装
            • 这里对python2.6.1中,复制python.exe文件,命名为python2.exe
          • 在cmd里切换调用
            • 切换调用
            • 提示:由于pip没有复制重命名,所以在cmd,pip时是在给python3.6.5安装插件
        • 3.安装datax
      • 二、自检
        • 进入bin目录,进行自检
          • 进入bin目录
            • 图示
          • 进行自检
            • 自检脚本:    python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json
            • 本机命令
              • python2 D:装机软件python编程大数据采集技术datax/bin/datax.py D:装机软件python编程大数据采集技术datax/job/job.json
            • cmd乱码解决:输入CHCP 65001
            • 自检截图
      • 三、查看配置模板进行配置
        • 前提:要在bin目录下
        • 查看配置文件
          • python2 datax.py -r streamreader -w streamwriter
          • 图示
        • 在job文件夹下,新建json文件
          • 图示1
          • 按自己的需求配置json文件
            • 示例
              • {
                "job": {
                "content": [
                {
                "reader": {
                "name": "streamreader",
                "parameter": {
                "sliceRecordCount": 10,
                "column": [
                {
                "type": "long",
                "value": "10"
                },
                {
                "type": "string",
                "value": "hello,你好,世界-DataX"
                }
                ]
                }
                },
                "writer": {
                "name": "streamwriter",
                "parameter": {
                "encoding": "UTF-8",
                "print": true
                }
                }
                }
                ],
                "setting": {
                "speed": {
                "channel": 5
                }
                }
                }
                }
      • 四、运行Job
        • 命令
          • python2 datax.py D:装机软件python编程大数据采集技术datax/job/stream2stream.json
        • 运行截图1
        • 运行截图2
    • 使用4h(主要在调试)
      • 小练习csv数据导入mysql
        • 准备工作
          • CSV表
            • 图示
          • 创建数据库和表
            • 图示
        • 步骤
        • 遇到的问题及解决方案
          • 1、一直报json文件配置不正确
            • 原因是因为在编辑json文件时,某些字符编码发生了变化
            • 解决方案:
              • (1)从官方文档找到demo,创建json文件
              • (2)采用Hbuilder X进行编辑,检查错误
          • 2、数据库连接不上的问题
            • 原因:datax官方支持的mysql5.0版本的驱动和连接的jdbcUrl
            • 解决方案
              • 更换本机的8.0驱动
              • 修改jdbcUrl
          • 3、插入数据库失败
            • 原因:设计表时:ID设置为不为空,没有设置为自动递增
          • 4、读取的数据有乱码
            • 设置
              • "encoding": "UTF-8"
              • "encoding": "GBK"
          • 5、json配置文件错误
            • 图示1和图示2是mysql写入mysql中的json文件配置,有一个地方很容易发生错误
              • 就是在jdbcURL这里,reader里的有[],writer里的没有[]
            • 给的启示就是,多注意细节,尽量使用命令查看模板
              • python2 datax.py -r txtfilereader -w mysqlwriter
            • 图示1
            • 图示2
  • 相关阅读:
    Python学习札记(十五) 高级特性1 切片
    LeetCode Longest Substring Without Repeating Characters
    Python学习札记(十四) Function4 递归函数 & Hanoi Tower
    single number和变体
    tusen 刷题
    实验室网站
    leetcode 76. Minimum Window Substring
    leetcode 4. Median of Two Sorted Arrays
    leetcode 200. Number of Islands 、694 Number of Distinct Islands 、695. Max Area of Island 、130. Surrounded Regions 、434. Number of Islands II(lintcode) 并查集 、178. Graph Valid Tree(lintcode)
    刷题注意事项
  • 原文地址:https://www.cnblogs.com/quxiangjia/p/12458427.html
Copyright © 2011-2022 走看看