zoukankan      html  css  js  c++  java
  • Hadoop 综合大作业

    1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。

     首先开启相关的程序,hadoop、hbase

     使用hdfs命令把下载的英文长篇小说复制进hdfs文件夹中

     然后打开hive命令行将hdfs中的长篇小说加入数据表

    然后查看数据表中的数据

     然后使用相关的命令进行词频统计

    2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

     部分步骤重复了就不说了,接下来就是使用一个脚本,把在主机中制作的csv文件进行预处理

     然后建表,查看

  • 相关阅读:
    linux系统缓存机制
    信号“未决”与“阻塞”
    异步I/O
    Unix下五种IO模型
    【设计模式
    【设计模式
    【设计模式
    【设计模式
    【设计模式
    【设计模式
  • 原文地址:https://www.cnblogs.com/zxc109525/p/9089870.html
Copyright © 2011-2022 走看看