zoukankan      html  css  js  c++  java
  • Hadoop综合大作业

    本次作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

    作业要求

    1.对CSV文件进行预处理生成无标题文本文件,将爬虫大作业产生的csv文件上传到HDFS

    2.把hdfs中的文本文件最终导入到数据仓库Hive中,在Hive中查看并分析数据

    3.用Hive对爬虫大作业产生的进行数据分析(10条以上的查询分析)

    作业题目:爬取电影《何以为家》影评并进行综合分析

    大数据案列:

    1.准备本地数据文件

    对CSV文件进行预处理生成无标题文本文件,将爬虫大作业产生的csv文件上传到HDFS

    首先,我们需要在本地中创建一个/usr/local/bigdatacases/datasets文件夹,具体的步骤为:

    ① cd /usr/local② sudo mkdir bigdatacase③ cd bigdatacase/④ sudo mkdir dataset⑤ cd dataset/

    效果如下:

     

    其次,我们把gggg.csv文件放到下载这个文件夹中,具体步骤如下:

    ① sudo cp /home//下载/gggg.csv /usr/local/bigdatacases/datasets/ #把gggg.csv文件拷到刚刚所创建的文件夹中

     

    2.在本地查看数据集

     head -5 gggg.csv #查看这个文件的前五行

    3.数据集的预处理---删除没必要的属性

    4.建立一个脚本文件,对数据进行预处理

    具体用一个pre_deal.sh文件,用gedit pre_deal.sh编辑脚本文件

    效果如下:

    5.准备本地数据文件,并将爬虫大作业产生的csv文件上传到HDFS,再一次对csv文件进行处理,生成无标题文本文件

    ① hdfs dfs -mkdir -p /bigdatacases/datasets #在hdfs上新建/bigdatacases/datasets

    ② hdfs dfs -ls /

    ③ hdfs dfs -put ./gggg.csv /bigdatacases/datasets #把本地文件gggg.csv上传至hdfs中

    ④ hdfs dfs  -ls /bigdatacases/datasets #查看

    ⑤ hdfs dfs -cat /bigdatacases/datasets/gggg.csv | head -5 #查看hdfs中gggg.csv的前五行

    6.把数据准备好之后,启动mysql hadoop hive 把hdfs中的数据导入到数据仓库hive中

    启动mysql和hadoop:

    启动hdfs:

    7.把hdfs中的文本文件最终导入到数据仓库Hive中,并在Hive中查看并分析数据,具体步骤如下:

    ① create database lyj;  -- 创建数据库dblab:

    ② use lyj;

    ③ create external table lyj(id string,username string,comment string,pingf string,time string) row format delimited fields terminated by ' ' stored as textfile location '/bigdatacases/datasets/';  -- 创建表lyj并把hdfs中/bigdatacases/datasets/目录下的数据加载到表中

    ④ select * from cucn limit 10; -- 查看lyj中前10行的数据

    用Hive对爬虫大作业产生的进行数据分析(10条以上的查询分析):

    查询评分为5的电影:

    分析:在所爬数据中,评分为5的电影有6782条,在所爬的数据中占比一半,由此看出评分为5的比例是相当高的

    查询评分为4的电影:

    分析:评分为4的电影达到1334条,在所爬数据中占比不大,但是也是唯二上1000条评分的一个评分区间。

    查询评分为3的电影:

    分析:评分为3的电影条数为246条,占据小部分,在整体评分中的比例很少。

    查询评分为2的电影:

    分析:评分为2的电影有75条,在10000多条评论中占比不重。

    查询评分为1的电影:

    分析:如图所示,评分为1的电影评价有45条,该电影属于差评的评分相当少。

    查询电影的平均分:

    分析:电影的平均分在4.44左右,在电影5分评分中占比例88.8%,单纯在电影评分中属于优秀的水平,从平均分分析出《何以为家》电影质量相当好。

    电影评分调查的综合分析:

    电影简介:黎巴嫩一个小城镇里的法庭,12岁的男孩扎因因为持刀伤人被判入狱,不过在律师的支持下,扎因起诉自己的父母,是因为父母不能为他提供保护和安全感。扎因的父母很穷,负担不起抚养孩子们的费用,这意味着扎因不能获得身份证,所以扎因是一个没有资格获得护照的黑户,无法去学校上学,甚至在紧急情况下也无法在医院获得救助。

    扎因是家里的长子,为了养活自己和兄弟姐妹,被迫工作为当地的杂货商送货,杂货商老板对扎因的妹妹有一种邪恶的兴趣。当扎因的父母把妹妹卖给杂货商时,扎因无比伤心跑到了一个海滨小镇,在那里,扎因遇到了埃塞俄比亚移民的拉希尔,是一个善良的人,她的生活比扎因稍稍好一点点,拉希尔隐瞒了她有个一岁的儿子约拿斯,为了逃避雇主和政府部门的监视,她在工作时一直把孩子放在购物车上,她住在一间用塑料和碎石搭成的小棚子里,正努力攒钱试图买一张伪造的身份证
     
    平均分(5分满分):4.44
     
    爬去数据数量:15408条
    筛选数据数量:8482条
     
    5分评分条数:6782条(占比79.6%)
    4分评分条数:1334条(占比15.7%)
    3分评分条数:246条(占比2.9%)
    2分评分条数:75条(占比0.08%)
    1分评分条数:45条(占比0.05%)
     
    由以上分析可知,《何以为家》这部电影好评如潮,好评率(4分以上)达到94%,差评率仅仅只有3.03%,是一部值得一看的电影,大概是因为故事的真实性的缘故,所以这部电影可以在我们身边会风靡起来。
     
    存在问题:

    1.电脑原因,我的电脑不能顺利打开我在教室做的hadoop,显示不能为虚拟电脑Ubuntu打开一个新任务,最后都无法打开,是用教室电脑完成。

    2.爬取数据不够多,在爬取过程中,当请求过于频繁时,服务器会拒绝连接,实际上是服务器的反爬虫策略,在每个请求间增加延时0.1秒,尽量减少请求被拒绝,如果被拒绝,则0.5秒后重试,

    因此没有爬取全部的电影评论,而是截取了其中的一万多条数据,未做到无限接近实际情况。

    3.create创建表中有不少null的项,可能是属性类型的错误,后来改了之后得到解决。

    4. 尽管可能座过数据清洗,但可能还会存在脏数据的情况。电脑允许的情况下可以通过增大数据量来减少这种误差。

    心得体会:本学期在老师的带领下,学习更了解大数据方面的知识了,包括爬虫可视化方面的知识和hadoop方面的知识,在老师的帮助下,安装Ubuntu,hive,hadoop,等等完成这次作业,其中还复习了数据库的知识,在Ubuntu上完成了对数据库的操作,这感觉很棒,还可以解决一些基本而又实际的问题---如爬取影评,令我获得了相关的学习能力,感觉很不错。

     
     
  • 相关阅读:
    深入理解MySQL开发性能优化.pptx
    公司mysql数据库设计与优化培训ppt
    weblogic 12c下jxls导出excel报错Could not initialize class org.apache.poi.xssf.usermodel.XSSFVMLDrawing
    智软科技医疗器械GSP监管软件通过多省市药监局检查
    论元数据和API管理工具
    sql server 2008空间释放
    论软件系统的设计与开发
    说说IT技术团队招聘那点事
    分布式系统基础设施概览
    分布式环境下rabbitmq发布与订阅端
  • 原文地址:https://www.cnblogs.com/lamonein/p/11044410.html
Copyright © 2011-2022 走看看