Hadoop综合大作业 - 走看看

zoukankan html css js c++ java

Hadoop综合大作业
1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。

(1)我下载了英文小说《追风筝的人》，改成story.txt，来进行操作

首先，启动hadoop

Hdfs上创建文件夹

上传文件到HDFS

启动hive

在story数据库建表storydocs，

导入文件内容到storydocs并查看
select * from storydocs；
用HQL进行词频统计，结果放在表storydocs_count里

查看统计结果(截图为部分截图)

2.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

1.将大数据产生的csv文件改名new.csv，存到虚拟机，然后上传到hdfs 并查看前十条数据

2.启动hive，启动hive，建new数据库，建表格big_data，把wordcount.csv里的数据导进该表并查询前10条记录

结论：数据能够进行正常的数据统计分析。

问题：由于编码问题，导致上传到hdfs的csv文件是乱码，尚未找到解决办法
查看全文

相关阅读:
Mac从零配置Vim
Mac效率：配置Alfred web search
看看你的邻居在干什么
 成功破解邻居的Wifi密码
 MacBook安装Win10
C陷阱：求数组长度
 Nexus 6P 解锁+TWRP+CM
搭建树莓派手机远程开门系统
 Ubuntu下配置ShadowS + Chrome
JS传参出现乱码(转载)

原文地址：https://www.cnblogs.com/cktcom/p/9087827.html

最新文章
spring cloud知识
 docker技术
 springboot知识
 dubbo知识
 redis总结
 kafka知识
 rabbitmq
mybatis篇
 jvm调优心得
 python:模拟浏览器获取百度指数，并截取长图

Copyright © 2011-2022 走看看