hadoop大作业 - 走看看

zoukankan html css js c++ java

hadoop大作业

要求：

1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。

网上下载经典长篇英文小说The Great Gatsby，保存到wc文件中，命名为xhp.txt。

　　启动hadoop集群

将wc文件夹的xhp.txt上传文件至hdfs的data文件夹

启动hive,创建数据库和文档表，

导入文件内容并查看

显示出来结果

2.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

对虎扑网关于凯尔特人的新闻进行爬取数据分析，并根据新闻进行词频统计，产生的csv如下：

创建表phe并将csv数据导入到表中

显示前二十条结果

查看全文

相关阅读:
有个表叫杨表（上）
Codeforces Round #698 (Div. 2) 题解全部6题
 Leetcode 821. 字符的最短距离
 gitbook mermaid不能渲染问题
 adb命令启动app及查找系统版本号
 git库使用
 excle转html方法
 gitbook插入视频
 xcode使用技巧
 在 Mac 上的“自动操作”工作流程中使用 Shell 脚本操作

原文地址：https://www.cnblogs.com/phoenlix/p/9083180.html

Copyright © 2011-2022 走看看