hadoop综合大作业 - 走看看

zoukankan html css js c++ java

hadoop综合大作业
启动Hadoop
start-all.sh
把本地文件上传到hdfs文件系统，然后查看（之前已经把下载的英文小说上传到hdfs了）
usr/local/hadoop/bin/hdfs dfs -put ~/wc/w.txt /user/hadoop/input usr/local/hadoop/bin/hdfs dfs -ls input
启动hive
hive
建个表text
create table text(line string);
把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计
load data inpath 'input' overwrite into table text; create table word_count as select word,count(1) as count from (select explode(split(line,' '))as word from text) w group by word order by word;
使用select命令查看结果

2.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

我爬取的是ImportNew网站里的文章然后进行词频统计后放到jieba.csv文件中：

先把爬取的文件上传到邮箱，然后在虚拟机上下载并放到本地的wc文件中：

启动hadoop：

将本地系统wc文件夹里的books.csv上传至hdfs文件系统中：

启动hive：

对csv文件转换为txt文件

建个表text2

把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计

使用select命令查看结果
查看全文

相关阅读:
navicat连接腾讯云服务器mysql
腾讯云服务器部署1
域名的注册使用
 python入门1-3章节
 轮播图的实现
 前端起步
 redis部署到云服务器上的一些坑
 面向对象第三单元总结
 面向对象课程第二单元总结
 面向对象课程第一单元总结

原文地址：https://www.cnblogs.com/god1924668503/p/9066636.html

Copyright © 2011-2022 走看看