zoukankan      html  css  js  c++  java
  • Hadoop综合大作业

    1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。

    2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

    1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。

    因为python生成的结果为中文,所以先去网上下载一篇英文小说  哈尔的移动城堡 《Howl’s Moving Castle》

    首先启动hadoop

    创建文本存放 小说

     

    将文本上传到hdfs

     启动hive

     

    创建小说表

     导入数据

     用HQL进行词频统计,结果放在表novel_count里

    查询结果

     

    2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

     首先在本地把统计好的词频转化成csv格式

    把文件上传到虚拟机

    启动hive

    创建表

     

    存放到表

    查看前十

    分析:说明大家喜欢的小说类型一般主题都是言情,男女之类的小说

  • 相关阅读:
    [Luogu] 封锁阳光大学
    [other] Div
    [USACO11DEC] 牧草种植Grass Planting
    [Luogu] 仓鼠找sugar
    [USACO15DEC]最大流Max Flow
    [noip-2013] 货车运输
    [模板] 普通平衡树
    [Luogu] 树链剖分
    [ZJOI2008] 树的统计Count
    大组合数取模
  • 原文地址:https://www.cnblogs.com/q1736699804/p/9090429.html
Copyright © 2011-2022 走看看