Hadoop综合大作业 - 走看看

zoukankan html css js c++ java

Hadoop综合大作业

1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）词频统计。

　　1.启动hadoop

2.Hdfs上创建文件夹并查看

上传英文词频统计文本至hdfs

启动Hive

导入文件内容到表docs并查看

进行词频统计，结果放在表t_word_count2里

查看统计结果

二、用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

1.将做过的爬取校园新闻生成的Excel文件先转换为文本文件，编码改为UTF-8，然后转换为csv文件，通过qq邮箱在虚拟机的Linux系统下载

2.删除文件的第一条数据并查看

3.上传文件到hdfs

4.启动hive后，导入文件内容到表到docs中并查看

查看全文

相关阅读:
城市漫游-牛客
 同步和阻塞理解
 避免用户多次点击，造成重复提交
 页面不可编辑
 正则表达式-简单实例
 从字符串提取一个列表
 JS对象、基本类型和字面量的区别
 本地数据访问时出现跨域问题Cross origin requests are only supported for protocol schemes: ……
checkbox操作判断 Jquery选择器
 HTML5经典实例——1基础语法和语义

原文地址：https://www.cnblogs.com/darkhate/p/9089488.html

Copyright © 2011-2022 走看看