zoukankan      html  css  js  c++  java
  • Hadoop综合大作业

    Hadoop综合大作业 要求:

    1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。

    启动hadoop

    用hdfs创建文件夹

    上传自己找的英文文章到hdfs上

    启动hive,创建novels原始文档表

    导入文件内容到表docs并查看

    用HQL进行词频统计,结果放在表word_count里

    查看统计结果

    2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

    爬虫大作业爬取的结果是如图所示

    将统计好的文件number.txt和number.csv放置wc文件夹中

    启动hdfs

    1
    2
    start-all.sh
    jps

    将文件上传至hdfs,并显示前十条

    启动mysql

    启动hive

    创建数据库

    1
    create database numbercount;

      

    创建表

    导入数据

    查看数据

  • 相关阅读:
    Java 继承和重写
    Java 构造函数和函数重载
    java 面向对象
    for循环和数组例题
    java数组和函数
    java程序流程控制
    CF600C Make Palindrome
    CF600A Extract Numbers
    [NOI2007]社交网络
    SPOJ 6779 GSS7
  • 原文地址:https://www.cnblogs.com/BOXczx/p/9090212.html
Copyright © 2011-2022 走看看