zoukankan html css js c++ java

周总结1大数据采集技术与应用（徳拓）五次实验总结

徳拓公开课

实验一：大数据同步技术datax的使用

目的:利用datax将.csv文件中的数据同步导入mysql中(乱码问题可通过输入命令 CHCP 65001解决)

1.Navicat里面建立数据表

2.仿照dataxjob中的job.json进行修改，新建立job_yq.json文件

reader中修改输入源

index 对应数据表三个字段 0 1 2

3.修改输出源用户名及密码

4.输出源中添加数据表对应字段

5.连接数据表修改表名

附上我的json文件可以参考修改

{
    "job": {
         "setting": {
           "speed": {
                "channel": 3
            }
        },
        "content": [
            {
                "reader": {
                    "name": "txtfilereader",
                    "parameter": {
                        "path":["D:/Projects/phython/pycharm/PythonEX/learn_six/疫情省.csv"],
                        "encoding":"GBK",
                        "column": [
        { 
                            "index":0,
                            "type":"string"
                        },
                        {
                            "index":1,
                            "type": "string"
                        },
                        {
                            "index":2,
                            "type": "string"
                        }
              ],
                         "fieldDelimiter":","
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
               "username":"root",
                        "password":"root",
                        "column": [
         "riqi",
                              "pro",
                              "que_num"                     
              ],
                 "preSql": [
                            "truncate table yq_province"
                        ],
                        "connection": [
                            {
                                "jdbcUrl":"jdbc:mysql://localhost:3306/demo",
                                "table":[
                                "yq_province"
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    }
}

View Code

到此配置好后直接运行命令： python datax json目录即可，这里需要在datax/bin目录下运行此命令。

例如：python datax.py E:xitongmajordataxjobjob_yq.json

易错点：这里路径一定要用/ 反斜杠会出错

实验二：大数据清洗技术kettle的使用

待更新

实验三：大数据日志采集技术Logstash

待更新

实验四：大数据实时采集技术Kafka

待更新

实验五：动态感知舆情热点大数据采集技术

待更新

查看全文

相关阅读:
Excel如何关闭进程
 Excel_To_DataTable
将本地项目上传到Github
对于session,request,cookie的理解
 static的使用
 Java事件监听的四种实现方式
 静态网页和动态网页
 ps -ef|grep详解
 linux ls -l 详解
 PKU2418_树种统计(map应用||Trie树)

原文地址：https://www.cnblogs.com/zzstdruan1707-4/p/12403895.html