由于之前用jdbc连接hive连接失败,这次改用直接用HQL语句来完成任务,之前的连接失败还未解决
之前第一阶段已经将文档清洗完毕,包括转化日期格式,去掉逗号等操作
现通过HQL命令完成题目:
2、数据处理:
·统计最受欢迎的视频/文章的Top10访问次数 (video/article)
·按照地市统计最受欢迎的Top10课程 (ip)
·按照流量统计最受欢迎的Top10课程 (traffic)
1、 数据可视化:将统计结果倒入MySql数据库中,通过图形化展示的方式展现出来。
这一步先将HIVE中的表数据导出到本地文件中,
然后通过命令将数据导入到MYSQL
最后通过mysql的JDBC连接实现数据的查询可视化显示出来。