zoukankan      html  css  js  c++  java
  • hadoop综合大作业

    启动Hadoop

    start-all.sh

    把本地文件上传到hdfs文件系统,然后查看(之前已经把下载的英文小说上传到hdfs了)

    usr/local/hadoop/bin/hdfs dfs -put ~/wc/w.txt /user/hadoop/input
    
    usr/local/hadoop/bin/hdfs dfs -ls input

    启动hive

    hive

    建个表text

    create table text(line string);

    把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计

    load data inpath 'input' overwrite into table text;
    
    
    create table word_count as
    select word,count(1) as count from
    (select explode(split(line,' '))as word from text) w
    group by word
    order by word;

    使用select命令查看结果

    2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

    我爬取的是ImportNew网站里的文章然后进行词频统计后放到jieba.csv文件中:

    先把爬取的文件上传到邮箱,然后在虚拟机上下载并放到本地的wc文件中:

    启动hadoop:

    将本地系统wc文件夹里的books.csv上传至hdfs文件系统中:

    启动hive:

    对csv文件转换为txt文件

    建个表text2

    把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计

    使用select命令查看结果

  • 相关阅读:
    navicat连接腾讯云服务器mysql
    腾讯云服务器部署1
    域名的注册使用
    python入门1-3章节
    轮播图的实现
    前端起步
    redis部署到云服务器上的一些坑
    面向对象第三单元总结
    面向对象课程第二单元总结
    面向对象课程第一单元总结
  • 原文地址:https://www.cnblogs.com/god1924668503/p/9066636.html
Copyright © 2011-2022 走看看