1.用Hive对英文长篇小说进行词频统计。
- 利用WinSCP 英语长篇小说文本文件放于 /home/hadoop/wc 目录下:

- 启动hadoop:

- 上传到hdfs/data文件中


- 启动Hive

- 在hive数据库创建表 world:

- 导入文本world.txt并查看:


- 用HQL进行词频统计并保持到表 word_count


2.用Hive对爬虫大作业产生的csv文件进行数据分析
- 同上,将爬虫大作业产生的csv文件放入bdlab数据库表bigdata_count中:

- 创建用于存放csv数据目录:

- 把文件放入文件夹中

- 查看文件中的数据:

- 导入数据库表中



- 查看数据:

- 分析数据,取得数据表中count计数前30位数据:



可以看出大多数字眼都是围绕C# JAVA 数据库 net 等!