zoukankan      html  css  js  c++  java
  • Hadoop综合大作业

    1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。

    对英文长篇小说The Souls of Black Folk进行词频统计

    1.start-all.sh

    创建文件夹

    1.hdfs dfs-mkdir storyinput

    2.hdfs dfs-ls/usr/hadoop


    上传文件至hdfs

    下载story.txt保存在~/下载里,查询目录,上传至hdf

    启动Hive

    创建数据库story,在数据库里建原始文档表


    导入文件内容到表
    storydocs

      

    HQL进行词频统计,结果放在表story_count查看统计结果 

      

    2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

    将数据以csv格式上传到hdfs

    技术分享图片

    进入文件路径并查看数据前5

    技术分享图片

    将文件上传到HDFS上

    技术分享图片

    查看上传成功的文件的前20个数据

    技术分享图片

    查看数据总条数

    技术分享图片

  • 相关阅读:
    C# Dev PropertyGrid
    C# PropertyGrid控件应用心得
    FileWriter不覆盖
    FileWriter
    java试题
    Java线程池
    java自带线程池和队列详细讲解
    HashMap练习题
    Map集合
    java指定
  • 原文地址:https://www.cnblogs.com/AMINOAC/p/9090450.html
Copyright © 2011-2022 走看看