zoukankan      html  css  js  c++  java
  • 周总结1大数据采集技术与应用(徳拓)五次实验总结

    徳拓公开课

    实验一:大数据同步技术datax的使用

    目的:利用datax将.csv文件中的数据同步导入mysql中(乱码问题可通过输入命令 CHCP 65001解决)

    1.Navicat里面建立数据表

     2.仿照dataxjob中的job.json进行修改,新建立job_yq.json文件

    reader中修改输入源

    index 对应数据表三个字段 0 1 2

     3.修改输出源 用户名及密码

     4.输出源中添加数据表对应字段

     5.连接数据表修改表名

     

     附上我的json文件可以参考修改

    {
        "job": {
             "setting": {
               "speed": {
                    "channel": 3
                }
            },
            "content": [
                {
                    "reader": {
                        "name": "txtfilereader",
                        "parameter": {
                            "path":["D:/Projects/phython/pycharm/PythonEX/learn_six/疫情省.csv"],
                            "encoding":"GBK",
                            "column": [
            { 
                                "index":0,
                                "type":"string"
                            },
                            {
                                "index":1,
                                "type": "string"
                            },
                            {
                                "index":2,
                                "type": "string"
                            }
                  ],
                             "fieldDelimiter":","
                        }
                    },
                    "writer": {
                        "name": "mysqlwriter",
                        "parameter": {
                   "username":"root",
                            "password":"root",
                            "column": [
             "riqi",
                                  "pro",
                                  "que_num"                     
                  ],
                     "preSql": [
                                "truncate table yq_province"
                            ],
                            "connection": [
                                {
                                    "jdbcUrl":"jdbc:mysql://localhost:3306/demo",
                                    "table":[
                                    "yq_province"
                                    ]
                                }
                            ]
                        }
                    }
                }
            ]
        }
    }
    View Code

    到此配置好后直接运行命令: python datax  json目录即可,  这里需要在datax/bin目录下运行此命令。

    例如:python datax.py E:xitongmajordataxjobjob_yq.json

    易错点:这里路径一定要用/ 反斜杠会出错

    实验二:大数据清洗技术kettle的使用

     待更新

    实验三:大数据日志采集技术Logstash

      待更新

    实验四:大数据实时采集技术Kafka

      待更新

    实验五:动态感知舆情热点大数据采集技术

      待更新

  • 相关阅读:
    线段树
    数学建模中的excel操作
    POJ 3666 Making the Grade
    POJ 1742 Coins
    CF 55D
    POJ 3280 Cheapest Palindrome
    牛客 处女座与复读机
    牛客 处女座的约会
    牛客 小a与星际探索
    POJ 2229 递推
  • 原文地址:https://www.cnblogs.com/zzstdruan1707-4/p/12403895.html
Copyright © 2011-2022 走看看