zoukankan      html  css  js  c++  java
  • Hadoop 综合大作业

    1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。

     首先开启相关的程序,hadoop、hbase

     使用hdfs命令把下载的英文长篇小说复制进hdfs文件夹中

     然后打开hive命令行将hdfs中的长篇小说加入数据表

    然后查看数据表中的数据

     然后使用相关的命令进行词频统计

    2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

     部分步骤重复了就不说了,接下来就是使用一个脚本,把在主机中制作的csv文件进行预处理

     然后建表,查看

  • 相关阅读:
    kvm virtio
    GPU 线程块/线程束
    ubuntu source
    React
    分布式系统
    honpeyhonepy
    css是干什么的
    bootstrap中的横的列
    数据安全之 alert logic
    viewset的使用的方法
  • 原文地址:https://www.cnblogs.com/zxc109525/p/9089870.html
Copyright © 2011-2022 走看看