大数据应用期末总作业

zoukankan html css js c++ java

大数据应用期末总作业

本次作业的要求来自：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

Hadoop综合大作业要求：

1.将爬虫大作业产生的csv文件上传到HDFS

此处选取的是爬虫大作业——豆瓣上排名前250的电影评价

此处选取的是douban.csv文件，共计32829条数据。

首先，在本地中创建一个/usr/local/bigdatacase/dataset 文件夹。然后把douban250.csv文件复制到这个文件夹中，然后

删除第一行记录以及显示前五行记录如下图所示：

对CSV文件进行预处理生成无标题文本文件

编辑pre_deal.sh文件对csv文件进行数据预处理，使得pre_deal.sh中的内容生效。如下图所示：

查看user_table.txt里面的内容，如下图所示：

将user_table.txt 存放在/usr/local/文件夹下赋予bigdatacase权限如下图所示:

接着，启动hadoop，在HDFS上建立/bigdatacase/dataset文件夹

并且把user_table.txt上传到HDFS中步骤如下：

查看HDFS中的User_table.txt的前10条记录，如下图所示：

启动MySQL数据库、启动Hadoop、启动Hive，进入命令行在Hive中创建一个数据库dblab,如下图所示：

创建外部表，把HDFS中的 /bigdatacase/dataset 目录下的数据加载到Hive仓库中，

并且显示 bigdata_user 前十条数据. 如下图所示：

查询前10位豆瓣用户对电影的评分，如下图所示：

查询电影评分为9分的用户对电影的评价。如下图所示：

查看豆瓣中电影评分小于8分的电影如下图所示：

查看豆瓣中电影评分少于8分的电影的文字评价。如下图所示：

总结：通过这学期的学习我对Hadoop的 mapreduce还有hdfs文件系统有了更加深层次的理解，也对hive的创建数据库、

结构化查询的功能更加深入了解。更加学习了python.明白了这门课程的真正用途，这学期的课学到了很多新的知识，也

复习了以前的知识，让我对计算机有了更加深层次的理解！

查看全文

相关阅读:
spring mvc controller间跳转重定向传参
 SpringMVC拦截器（资源和权限管理）
Spring3 MVC 拦截器拦截不到的问题
 使用HandlerInterceptor实现简单的授权
 同一个form里，不管哪个 submit 都是直接提交form表单里的内容
 AJax+springMVC+JQURY.GET--注册界面即时刷新用户名是否存在
 Ajax异步检查用户名是否存在（附Demo下载）
Ajax注册表单用户名实时验证
 SpringMVC记住密码功能（实例）
CocoaPods停在Analyzing dependencies解决方案

原文地址：https://www.cnblogs.com/lb2016/p/11020622.html