作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
创建文件夹,再放入数据文件。

预处理并查询数据

设置权限

启动全部服务器

在HDFS上传文件夹/bigdatacase/dataset

在HDFS上传we_table.txt并查询

进入hive模式,创建表格bdlab

使用表格

创建数据类型:id 、用户名、点赞数、时间、评论

查询前十条数据

查询前10的时间

计算出表内多少数据

查出uid不重复的数据

总结:
这次作业是在原来python挖到数据,将数据通过HDFS传入数据库MYSQL中,在HIVE中进行建表和区分数据类型,再利用HIVE中进行特定要求的数据查询,获得所需要的结果。
问题:1在实验过程中,将CSV文件导入进取时总是遇到乱码,然后设置为UTF-8模式才解决问题。
2在HIVE建表时第一列我本应该为用户名,所以我建的第一个表格bigdata_user导致后面的数据类型不规范,最后通过百度才解决问题。