zoukankan      html  css  js  c++  java
  • 基于Hadoop爬虫网易云歌曲评论

    作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

    本次选取的是爬取歌曲《大碗宽面》的歌评数据

    1.将爬虫大作业产生的csv文件上传到HDFS

    2.对CSV文件进行预处理生成无标题文本文件

    3.把hdfs中的文本文件最终导入到数据仓库Hive中

    创建数据库:

    创建comment表:

    创建users表:

    4.在Hive中查看并分析数据

    查询comment表:

    查询users表:

    5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

    (1)查询点赞数前20的评论

    分析:在点赞最多的评论中,有对这首歌进行科普的,也有对这首歌以及歌手表示称赞的,可以看出网友对这个作品的评价还可以。

    (2)查询点赞数前10的用户信息

    (3)查询男女数量比例

    分析:其中0表示没有设置性别,1表示性别为男,2表示性别为女,从数量上可以看出男性对这首歌更感兴趣一些。

    (4)男性点赞数前20的评论

    分析:在男性点赞前20的评论中,可以看出对歌手的评价比较多,也有喜欢吃面而来的。

    (5)女性点赞数前20的评论

    分析:在女性点赞前20的评论中,出现最多的词汇是哈哈哈,可以看出这首歌还挺逗。

    (6)评论用户中的平均等级

    分析:在这首歌的评论中,用户的平均等级为六点多,从用户等级制度来看,评论的用户使用这个平台时间挺长的。

    (7)评论用户的等级分布

    分析:在等级分布来看,用户等级在6、7、8级的比较多,可以看出大部分都是音乐爱好者。

    (8)评论用户中的平均年龄

    (9)评论用户的城市前十分布

    分析:根据城市编号和用户的城市分布来看,用户主要分布在北京、广东、四川等地区。

    (10)粉丝数前25的用户的评论

    分析:一些粉丝数较多的用户也对这首歌的评价不低,说明这首歌确实很不错吧。

    (11)关注数前25的用户评论

    分析:在关注数前25的用户评论中,出现了相同的用户评论了多条评论,说明这些用户热衷于评论音乐;

    (12)评论用户中平均听歌数量

    分析:在评论用户中,平均听歌数量接近三千。

  • 相关阅读:
    C++ Primer中的一个sort算法源码
    字符串反转操作,网易的一道面试题
    字符编码之UCS2与Utf8
    我的Vim配置
    使用PreviousPage来获取前一页页面的元素
    ToString()用法大全
    MSSQL怎样使自动增加的id列数据归零
    确定要离开当前页面吗
    js 获取url参数
    C#判断程序是否以管理员身份运行,否则以管理员身份重新打开 转载
  • 原文地址:https://www.cnblogs.com/Richard-V/p/11011389.html
Copyright © 2011-2022 走看看