zoukankan      html  css  js  c++  java
  • Hadoop综合大作业

    作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

    1.将爬虫大作业产生的csv文件上传到HDFS

    (1)在HDFS里创建一个目录用于存放待分析的大数据文件。

    (2)把文件上传到HDFS。

     

    2.对CSV文件进行预处理生成无标题文本文件

     (1)创建一个pre_deal.sh脚本文件对csv文件进行预处理,为数据编号。

    (2)由csv文件转换为无标题的文本文件

     

    3.把hdfs中的文本文件最终导入到数据仓库Hive中

    (1)启动Hadoop系统,进入Hive数据仓库创建数据库

    (2)创建一个comments表把数据导入到Hive中

    4.在Hive中查看并分析数据

    5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

    • 查询数据总数。

    • 统计不重复的总数,即用户总数

    • 查看前20条评论的内容

     

    • 统计被点赞过的评论的数量。

    • 统计点赞超过100的评论的数量。

     

    • 查看点赞数前10的评论内容及点赞数量

    •  统计有被回复的评论数

     

    •  查看内容提到高考的评论

    • 查看内容提到开通会员的评论

     

    •  统计评论中开通会员的用户数

     

    •  统计内容包含喜欢,好听的评论数。

     

    • 查看喜欢这首歌的评论内容

    总结:评论总数为4015,用户数为3398,其中很多用户认为歌曲很励志,许多临近高考的听众,同时也有很多听众在评论中提到歌曲很好听,很喜欢,甚至为了这一首歌开通了会员。点赞数量最多的用户香喷喷的肉包拥有1950000个点赞,评论内容为:这歌又叫做《有本事你翻唱啊》、《拒绝大合唱的歌》、《调高到唱背过气的歌》、《歌词不会哼哼过去的歌》。

  • 相关阅读:
    typeof与instanceof
    TCP与UDP的区别
    const、let、var关键字
    基本通用的使用jdbc文件java代码连接数据库
    HTML知识点01
    ADO.NET基础02
    ADO.NET基础03
    数据库语法01
    数据库语法02
    Ubuntu16.4 内核降级
  • 原文地址:https://www.cnblogs.com/leo0724/p/11061050.html
Copyright © 2011-2022 走看看