Hadoop2.2.0 第一步完成MapReduce wordcount计算文本数量

zoukankan html css js c++ java

Hadoop2.2.0 第一步完成MapReduce wordcount计算文本数量
1.完成Hadoop2.2.0单机版环境搭建之后需要利用一个例子程序来检验hadoop2 的mapreduce的功能
//启动hdfs和yarn sbin/start-dfs.sh sbin/start-yarn.sh
2.首先现在一个文件夹里面建立两个文件file01.txt file02.txt里面加入如下内容，具体方法会linux的都会，我就默认你具有了。

file01.txt
kongxianghe kong yctc Hello World
file02.txt
11 2222 kong Hello yctc
3. 将这两个文件放入hadoop的HDFS中，HDFS（Hadoop Distributed File System）就是hadoop的文件系统。
//cd到hadoop/bin目录下 hadoop fs -ls //查看hdfs目录情况
在HDFS中创建文件夹input
hadoop fs -mkdir -p input // -p这个参数是必须加入的hadoop2和之前的版本是不一样的

hadoop fs -put file*.txt input // 将刚才的两个文件放入到hadoop的文件系统之中
查看这些文件是否已经进入到了hadoop的文件系统之中
hadoop fs -cat input/file01.txt //查看命令
删除文件命令
hadoop fs -rm -r xxx
4.利用如命令进行计算，注意input文件夹是刚才手动在HDFS中建立的，output文件夹不需要自己建立。
hadoop jar /kong/hadoop/lib/hadoop-mapreduce-examples-2.2.0.jar wordcount input output
需要等待几分钟的时间，在进行map和reduce的情况下会占用大量的内存，可能超过4GB这时候什么都不要动只需要等待

在浏览器中输入：localhost:8088 然后在左边栏中找到Cluster-->Applications-->FINISHED 刚才的任务就在里。

5.查看mapreduce的情况，利用命令找到output文件夹，找到里面的文件
hadoop fs -ls output

Found 2 items -rw-r--r-- 1 root supergroup 0 2014-01-17 10:44 output/_SUCCESS -rw-r--r-- 1 root supergroup 58 2014-01-17 10:44 output/part-r-00000
打开part-r-00000这个文件就是执行结果
hadoop fs -cat output/part-r-0000
结果为
1111 1 2222 1 Hello 2 World 1 kong 2 kongxianghe 1 yctc 2
数据都被统计出来了，成功！
Good Luck!

Reference:http://hi.baidu.com/kongxianghe123/item/731aa74762111ae81381da9b
查看全文

相关阅读:
mycat 1.6.6.1 distinct报错问题
 linux下Tomcat+OpenSSL配置单向&双向认证(自制证书)
Too many open files错误与解决方法
 Tomcat类加载机制触发的Too many open files问题分析（转）
spring boot 自签发https证书
 redis集群如何解决重启不了的问题
 centos7 docker 安装 zookeeper 3.4.13 集群
 centos7用docker安装kafka
心怀感恩
 不使用if switch 各种大于小于判断2个数的大小

原文地址：https://www.cnblogs.com/549294286/p/3592706.html