zoukankan      html  css  js  c++  java
  • hadoop环境安装及简单Map-Reduce示例


    说明:这篇博客来自我的csdn博客,http://blog.csdn.net/lxxgreat/article/details/7753511


    一.参考书:《hadoop权威指南--第二版(中文)》

    二.hadoop环境安装

    1.安装sun-jdk1.6版本

    1)目前我只在一台服务器(CentOS5.5)上搭建hadoop环境,因此先卸载已安装的java1.4版本

    卸载命令:yum -y remove java

    2)下载sun-jdk1.6,地址:http://download.oracle.com/otn-pub/java/jdk/6u33-b04/jdk-6u33-linux-x64-rpm.bin

    3)安装java(进入jdk安装文件所在目录) 

    添加bin文件权限:chmod a+x *

    安装,sudo  ./jdk-6u33-linux-x64-rpm.bin

            (若是在普通用户下安装,需要在/etc/sudoers文件下添加语句,表示当前用户可以拥有root权限,具体命令如下

    a. su root

    b. chmod u+w /etc/sudoers

    c. vim /etc/sudoers

    d.在root    ALL=(ALL)       ALL下面添加一行 “username(你要创建的sudoer用户名) ALL=(ALL)  ALL”,保存退出

    e. chmod u-w /etc/sudoers

            )

    4)设置JAVA_HOME

    编辑用户目录下的.bashrc文件,设置JAVA_HOE命令:export JAVA_HOME=/usr

    2.安装hadoop

    1)从http://hadoop.apache.org/common/releases.html#Download上下载相应版本的hadoop(本人下载的是1.0.3版本)

    2)解压文件

    命令:tar -xzf  hadoop-1.0.3.tar.gz

    3)测试hadoop是否安装成功(进入hadoop安装目录,依次执行以下命令)

    a. mkdir input 

    b. cp conf/*.xml input 
    c. bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+' 
    d. cat output/*  (显示“1      dfsadmin” 表示hadoop安装成功)

    4)设置环境变量

    export HADOOP_HOME=/home/username/hadoop/hadoop-1.0.3
    export PATH=$PATH:$HADOOP_HOME/bin
    export CLASSPATH=.:$HADOOP_HOME/hadoop-core-1.0.3.jar:$HADOOP_HOME/lib:$CLASSPATH

    三.简单Map-Reduce示例

    一开始按照书上20~23页(也可参考该页面http://answers.oreilly.com/topic/455-get-started-analyzing-data-with-hadoop/)上的内容运行简单的MaxTemperature示例,一直没用过。在命令行环境下,输入

    % export HADOOP_CLASSPATH=build/classes
    
    % hadoop MaxTemperature input/ncdc/sample.txt output

    就显示:ClassNotFound类似的错误,然后修改,又抛出IOException,后在网上找了好久,得到一个可行的方案。

    1.参考链接

    http://hadoop.apache.org/common/docs/stable/mapred_tutorial.html

    http://blog.endlesscode.com/2010/06/16/simple-demo-of-mapreduce-in-java/

    2.主要步骤

    mkdir MaxTemperature
    javac -d MaxTemperature MaxTemperature.java
    jar
    cvf MaxTemperature.jar -C MaxTemperature/ .
    hadoop jar MaxTemperature.jar MaxTemperature sample.txt output

    注意事项:

    将map,reduce类的代码复制到MaxTemperature.java中,添加static属性,执行javac命令如遇到Iterator报错时,则添加相应包,如下

    import java.util.Collection;
    import java.util.HashSet;
    import java.util.Iterator;

    四.一点感想

    今天第一次搭建hadoop环境,主要困难在于按照书上说明一步一步操作时,遇到了错误,这时不确定是书上的知识过时了还是我的操作失误,加之对java不太熟悉,由此浪费了好几个小时的时间。最后,找到了一个正确的方案,成功运行了Map-Reduce的简单示例(单机模式)。总体来说,走出了第一步,有点小成就感。希望能利用这个暑假深入研究hadoop。加油~

    五.补充

    参考书《Hadoop权威指南(中文第二版)》中第25页说明了,Hadoop从0.20.0版本开始在类型上不兼容先前的API,要重写以前的应用程序才能使新的API发挥作用。这就说明了用旧的API会报一些奇怪的类似ClassNotFound的错误了。

    在这里补充下新增的API和旧的API之间的一些明显区别(摘自书中):

    1.新的API倾向于使用抽象类,而不是接口,因为这更容易扩展。例如,你可以添加一个方法(用默认的实现)到一个抽象类而不需修改类之前的实现方法。在新的API中,Mapper和Reducer是抽象类。
    2.新的API是在org.apache.hadoop.mapreduce包(和子包)中的。之前版本的API则是放在org.apache.hadoop.mapred中的。
    3.新的API广泛使用context object(上下文对象),并允许用户代码与MapReduce系统进行通信。例如,MapContext基本上充当着JobConf的OutputCollector和Reporter的角色。
    4.新的API同时支持"推"和"拉"式的迭代。在这两个新老API中,键/值记录对被推mapper中,但除此之外,新的API允许把记录从map()方法中拉出,这也适用于reducer。"拉"式的一个有用的例子是分批处理记录,而不是一个接一个。
    5.新的API统一了配置。旧的API有一个特殊的JobConf对象用于作业配置,这是一个对于Hadoop通常的Configuration对象的扩展(用于配置守护进程,请参见5.1节)。在新的API中,这种区别没有了,所以作业配置通过Configuration来完成。
    6.作业控制的执行由Job类来负责,而不是JobClient,它在新的API中已经荡然无存。

  • 相关阅读:
    简化单例模式
    static
    单例模式之懒汉模式
    Car race game
    poj-2403
    poj-2612
    poj-1833
    poj--2782
    poj--2608
    poj--3086
  • 原文地址:https://www.cnblogs.com/didiaoxiong/p/3228605.html
Copyright © 2011-2022 走看看