zoukankan      html  css  js  c++  java
  • Hadoop综合大作业

    Hadoop综合大作业 要求:

    1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。

    我下载的是一篇英文长篇小说《教父》,字数为个,

    将文章(godfather.txt)放在了wc文件中:

    启动hadoop:

    start-all.sh
    jps
    

      

    文件上传至hdfs

    hdfs dfs -put ./godfather.txt /bigdatacase/dataset
    hdfs dfs -ls /bigdatacase/dataset

      

    启动hive

    hive

     创建原始文档表

    create table novel(long string);
    

      

    导入文件内容到表novel

    load data inpath '/bigdatacase/dataset/godfather.txt' overwrite into table novel;
    

      

    进行词频统计并放入表novelcount表中

    create table novelcount as select word,count(1) from (select(long,' ')) as word from novel) word group by word;

    查看统计结果(前20个)

    select * from novelcount limit 20

    2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

    爬虫大作业爬取的结果是如图所示

    将统计好的文件number.txt和number.csv放置wc文件夹中

    启动hdfs

    start-all.sh
    jps

    将文件上传至hdfs,并显示前十条

    启动mysql

    启动hive

    创建数据库

    create database numbercount;
    

      

    创建表

    导入数据

    查看数据

  • 相关阅读:
    SQL结构化查询语言
    数据库主外键
    SQL数据库数据类型详解
    注释和特殊符号
    文本装饰
    列表样式
    网页背景
    SQL数据库数据类型详解
    数据库主外键
    Update 语句
  • 原文地址:https://www.cnblogs.com/zhiling123/p/9076828.html
Copyright © 2011-2022 走看看