Hadoop综合大作业

zoukankan html css js c++ java

Hadoop综合大作业
作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

1.将爬虫大作业产生的csv文件上传到HDFS

（1）在HDFS里创建一个目录用于存放待分析的大数据文件。

（2）把文件上传到HDFS。

2.对CSV文件进行预处理生成无标题文本文件

（1）创建一个pre_deal.sh脚本文件对csv文件进行预处理，为数据编号。

（2）由csv文件转换为无标题的文本文件

3.把hdfs中的文本文件最终导入到数据仓库Hive中

（1）启动Hadoop系统，进入Hive数据仓库创建数据库

（2）创建一个comments表把数据导入到Hive中

4.在Hive中查看并分析数据

5.用Hive对爬虫大作业产生的进行数据分析，写一篇博客描述你的分析过程和分析结果。（10条以上的查询分析）
- 查询数据总数。
- 统计不重复的总数，即用户总数
- 查看前20条评论的内容
- 统计被点赞过的评论的数量。
- 统计点赞超过100的评论的数量。
- 查看点赞数前10的评论内容及点赞数量
- 统计有被回复的评论数
- 查看内容提到高考的评论
- 查看内容提到开通会员的评论
- 统计评论中开通会员的用户数
- 统计内容包含喜欢，好听的评论数。
- 查看喜欢这首歌的评论内容
总结：评论总数为4015，用户数为3398，其中很多用户认为歌曲很励志，许多临近高考的听众，同时也有很多听众在评论中提到歌曲很好听，很喜欢，甚至为了这一首歌开通了会员。点赞数量最多的用户香喷喷的肉包拥有1950000个点赞，评论内容为：这歌又叫做《有本事你翻唱啊》、《拒绝大合唱的歌》、《调高到唱背过气的歌》、《歌词不会哼哼过去的歌》。
查看全文

相关阅读:
scala 基本语法
 HBase架构深度解析
 scala 面向对象之继承
 探索 ConcurrentHashMap 高并发性的实现机制
 Spark 源码和应用开发环境的构建
 spark内存管理详解
 2020软件工程第一次作业 L
实验 1：Mininet 源码安装和可视化拓扑工具 L
代码阅读方法
 生活中的小感悟

原文地址：https://www.cnblogs.com/leo0724/p/11061050.html