zoukankan      html  css  js  c++  java
  • Hadoop大作业

    一:先将服务都启动

    二:将爬虫大作业获取的数据上传到HDFS中

    三.把hdfs中的文本文件最终导入到数据仓库Hive中

    启动hive

    创建数据仓库maoyan

    查看是否建立成功

    用上传到HDFS中的数据,在数据库中建表,并且查看时否建立成功

    四:在Hive中查看并分析数据

    统计出观众所在城市数量最多的10个城市

    北上广深等一线城市,观众粉丝多,消费水平可以。观影数量非常多。

    统计出观众评分的情况,大部分为5分,

    可以看到评分满分的用户几乎超过总人数的70%,可见观众看完电影之后很满足,也说明了电影的可看性很高

    24号上映到现在已经三天,其中观影人数最多的是25号,可能大家觉得首映有点小贵吧,哈哈。

     可见用户等级为0,5,6的用户基本没有,而且随着等级的提升,人数急剧变少。

    新用户可能是以年轻人为主,对科幻电影感兴趣,因而评论数量较多,而老用户主要偏向于现实剧情类的电影,评论数量较少

    五:出现的问题解决:

    在HIVE中进行查询时,一开始会出现“无法分配内存”的情况,后来把虚拟机的内存调为4G就解决了。

  • 相关阅读:
    sae-xhprof调试性能
    VC++常用函数
    C++资料收集&整理
    C++宽窄字符串转换
    #MySQL for Python(MySQLdb) Note
    VC++ ADO相关
    MFC各种控件的常见操作(逐步添加中......)
    关于Sql注入的那些事
    Python中socket经ssl加密后server开多线程
    网络编程
  • 原文地址:https://www.cnblogs.com/wzh1997/p/11040759.html
Copyright © 2011-2022 走看看