Hadoop综合大作业 - 走看看

zoukankan html css js c++ java

Hadoop综合大作业
一.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。

1.启动hadoop及组件程序

2.创建工作文件夹

3.上传数据源文件到hdfs

4.创建数据表

5.将数据装载到数据表中

6.对数据表中的数据进行词频统计

7.统计结果（节选）

二.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

1.将数据文件上传到hdfs中
hdfs dfs -put ~/hadoop/data.csv /user/workspace
2.查看hdfs上的data.csv文件前20条数据的内容：
hdfs dfs -cat /user/workspace/data.csv | head -20
3.启动hive
./usr/local/BigData/hive/bin/hive
4.创建数据表data
create table data(line string);
5.将数据导入到数据表中
load data inpath '/user/hadoop/hive/data.csv' overwrite into table data;
查看全文

相关阅读:
ISpout源码解析
 storm完全分布式部署
 sqoop工具
 sqoop安装步骤
 HBASE常用配置
 linux命令无法使用：命令行输入：set>lll cat lll echo $PATH
BubbleSort
QuickSortWithRec
面试题
 Nginx配置安装

原文地址：https://www.cnblogs.com/126lc/p/9090510.html

热门文章
object
Lesson_collections
Lesson_fun
match
trait
trait1
集合
 函数
 String
Kafka文档

Copyright © 2011-2022 走看看