zoukankan      html  css  js  c++  java
  • Hadoop综合大作业

    一、用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。

    1.启动hadoop

     2.在Hdfs上创建文件夹并查看

    3.把下载的英文小说novers.txt文件上传至hdfs 

    4.启动Hive

    5.创建原始文档表,把文件内容导入到表fiction1中

    6.进行词频统计,结果放在表fiction_word_count里

    7.查看统计结果

     二、用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

     1.将爬取校园新闻生成的csv文件,然后通过qq邮箱在虚拟机的Linux系统下载

    2.把下载的csv文件上传到hdfs,然后启动hive

    3.导入数据到docs表并查看

    4.查看docs表

  • 相关阅读:
    tuple-1
    禅语-1
    综述的写作技巧-1
    皆大欢喜组合
    类和对象-3
    双棍练习
    CodeBlocks开发环境使用-1
    类和对象-2
    类和对象-1
    13-归并排序-分治策略应用于排序
  • 原文地址:https://www.cnblogs.com/wumeiying/p/9090588.html
Copyright © 2011-2022 走看看