zoukankan      html  css  js  c++  java
  • Hadoop综合大作业

    1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。

    由于爬虫大作业做的中文分析词云,所以这里采用下载长篇英文小说 The old man and sea来进行词频统计。

    首先要启动dfs:

    在hdfs上创建文件夹oldman:

    查看hdfs的所有文件

    上传到hdfs

    打开hive创建oldman数据表

    添加数据到oldman数据表

     创建分析表统计

     

     查看分析统计结果

     

    2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

    查看前10个数据

     启动hive

     将csv导入到数据表

     显示查看数据

  • 相关阅读:
    树的可视化
    图的可视化
    1+1=2
    用xapian来做索引
    学习的快乐
    项目小结
    z=sin(xy)
    Min Stack
    互联网公司的文化
    为什么要读数学书
  • 原文地址:https://www.cnblogs.com/weixingna/p/9085207.html
Copyright © 2011-2022 走看看