zoukankan      html  css  js  c++  java
  • Hadoop2.2.0 第一步完成MapReduce wordcount计算文本数量

    1.完成Hadoop2.2.0单机版环境搭建之后需要利用一个例子程序来检验hadoop2 的mapreduce的功能

    //启动hdfs和yarn
    sbin/start-dfs.sh
    sbin/start-yarn.sh

    2.首先现在一个文件夹里面建立两个文件file01.txt file02.txt里面加入如下内容,具体方法会linux的都会,我就默认你具有了。

    file01.txt 

    kongxianghe
    kong
    yctc
    Hello World

    file02.txt

    11
    2222
    kong
    Hello
    yctc

    3. 将这两个文件放入hadoop的HDFS中,HDFS(Hadoop Distributed File System)就是hadoop的文件系统。

    //cd到hadoop/bin目录下
    hadoop fs -ls     //查看hdfs目录情况

    在HDFS中创建文件夹input

    hadoop fs -mkdir -p input     //  -p这个参数是必须加入的hadoop2和之前的版本是不一样的
    hadoop fs -put file*.txt input  //  将刚才的两个文件放入到hadoop的文件系统之中

    查看这些文件是否已经进入到了hadoop的文件系统之中

    hadoop fs -cat input/file01.txt   //查看命令

    删除文件命令

    hadoop fs -rm -r xxx

     

    4.利用如命令进行计算,注意input文件夹是刚才手动在HDFS中建立的,output文件夹不需要自己建立。

    hadoop jar /kong/hadoop/lib/hadoop-mapreduce-examples-2.2.0.jar wordcount input output

    需要等待几分钟的时间,在进行map和reduce的情况下会占用大量的内存,可能超过4GB这时候什么都不要动只需要等待

    在浏览器中输入:localhost:8088 然后在左边栏中找到Cluster-->Applications-->FINISHED   刚才的任务就在里。


    5.查看mapreduce的情况,利用命令找到output文件夹,找到里面的文件
    hadoop fs -ls output
    Found 2 items
    -rw-r--r--   1 root supergroup          0 2014-01-17 10:44 output/_SUCCESS
    -rw-r--r--   1 root supergroup         58 2014-01-17 10:44 output/part-r-00000

    打开part-r-00000这个文件就是执行结果

    hadoop fs -cat output/part-r-0000

    结果为

    1111    1
    2222    1
    Hello   2
    World   1
    kong    2
    kongxianghe 1
    yctc    2

    数据都被统计出来了,成功!
    Good Luck!

    Reference:http://hi.baidu.com/kongxianghe123/item/731aa74762111ae81381da9b

  • 相关阅读:
    菜鸟学python之程序初体验
    菜鸟学python之大数据的初认识
    js获取本地ip地址和外网IP地址
    Js中foreach()用法及使用的坑
    模拟实现Promise,探究Promise原理
    搞懂JS的事件循环(Event Loop)和宏任务/微任务
    NodeJS 中的 LRU 缓存(CLOCK-2-hand)实现
    设计模式在前端项目中的应用
    JS 中一些高效的魔法运算符
    Js中如何克隆对象?
  • 原文地址:https://www.cnblogs.com/549294286/p/3592706.html
Copyright © 2011-2022 走看看