zoukankan      html  css  js  c++  java
  • Hadoop入门学习笔记---part2

         在《Hadoop入门学习笔记---part1》中感觉自己虽然总结的比较详细,但是始终感觉有点凌乱。不够系统化,不够简洁。经过自己的推敲和总结,现在在此处概括性的总结一下,认为在准备搭建hadoop环境时,需要在linux机器上做一些设置,在搭建Hadoop集群环境前,需要在本地机器上做以下设置:

    1. 修改ip地址;
    2. 关闭防火墙;
    3. Hostname的修改;
    4. Ssh自动登陆的设置(也即:免密码登录);

      **关于以上操作的详细命令可以查看上一篇博客《Hadoop入门学习笔记---part1》  作者:itRed   邮箱:it_red@sina.com  博客:http://itred.cnblogs.com

       然后是安装过程,分为两步:

    1. 安装jdk;
    2. 安装hadoop;

      Part2的重点就是安装和配置hadoop:在myeclipse中查看Hadoop的源码。

      在安装之前,说一说hadoop的版本:

    1. Apache :官方版;
    2. Cloudera: 使用下载最多的版本,稳定,有商业支持,在Apache基础上打上了patch。应该说是比较推荐的一种;
    3. Yahoo :内部使用的版本,发布过两次,已有的版本放到Apache上,后续的还在继续发布,并且是集中在Apache的版本上。

       本人使用的Hadoop版本是1.1.2,使用的软件为Hadoop-1.1.2.tar.gz

       在以上的设置工作完之后,正式进入安装和配置阶段:

    1. 将该软件放到linux系统中,解压,为了方便,修改一下文件名和权限;
    2. 设置环境变量;
    #vi  /etc/profile
    加上一行:export HADOOP_HOME=/usr/local/Hadoop
    在PATH后添加:$HADOOP_HOME/bin:

         然后执行这个命令让其立即生效:

    #source /etc/profile

      3. 修改hadoop的配置文件,用以实现伪分布,这里主要修改4个配置文件:

        (1)     Hadoop-env.sh

          主要是修改jdk的路径:

          在该文件的第9行,修改JAVA_HOME的路径,根据自己的实际情况就行。

        (2)     Core-site.xml

          在configuration里面加入一下配置代码,需要注意自己的主机名,即最开始修改的hostname:

    <property>
       <name>fs.default.name</name>
       <value>hdfs://hadoop:9000</value>
    </property>
    <property>
       <name>Hadoop.tmp.dir</name>
       <value>/usr/local/Hadoop/tmp</value>
    </property>

        (3)     Hdfs-site.xml:

    <property>
       <name>dfs.replication</name>
       <value>1</value>
    <property>
    <property>
       <name>dfs.permission</name>
       <value>true</value>
    <property>

        (4)     Mapred-site.xml

    <property>
       <name>mapred.job.tracker</name>
       <value>Hadoop:9001</value>
    </property>

      4.  待配置完成后,需要对hadoop进行格式化,很多哦人开始不理解。这样想就行了,因为HDFS是一个文件系统,专门用来存储的。想想U盘什么的都需要格式化。

    格式化的命令为:#hadoop namenode –format

         (总结:如果启动后发现有进程没有启动,需要重新格式化,那么首先得把已经启动了的进程停止掉,才能进行操作。#stop-all.sh)

      5. 启动Hadoop:

    命令:#start-all.sh  (注意:中间没有空格)
    很自然能想到关闭停止的命令:#stop
    -all.sh

        可以进行单个启动和关闭。

        启动完成后,需要验证是否正确,用命令jps来验证,注意不是jsp:  

    #jps

        这时会出现5个java进程(一共6个,其中包含一个jps),分别为:

        SecondaryNameNode     DataNode     TaskTracker    NameNode    JobTracker    Jps   

        

      这样就算安装成功了!如果还不甘心,希望在浏览器中查看,不慌。这就说来。

      如果你的操作界面时命令行模式,首先#startx 进入操作系统的界面模式,然后打开浏览器,在浏览器中输入hadoop:50070或输入 Hadoop:50030就可以看到如下界面:

          hadoop:50070页面:

      

       hadoop:50030页面:

      

      关于某进程没有启动的常见解决办法

        HDFS在安装后没有格式化;

        4个配置文件修改可能存在问题;

        Hostname与ip没有绑定;

        Ssh的免密码登录没有配置成功。

        如果确保没有任何操作失误,或者在多次格式化后,还是不能启动某个进程,那么去删除/usr/local/Hadoop/目录下的tmp文件夹,然后再重新格式化。应该就没有什么问题了。

       

      那么如何在myeclipse中查看Hadoop的源码呢?

        首先解压hadoop软件。我使用的版本是:hadoop-1.1.2.tar.gz

        解压后的文件目录结构如下:

      

        然后打开myeclipse,新建一个java工程,把src目录下的core文件夹,hdfs文件夹,mapred文件夹拷贝到src目录下。然后选择你的jdk,然后把那个src包调一下,就可以打开看到Hadoop的源码了。

    作者:itRed         
    邮箱:it_red@sina.com            
    博客:http://www.cnblogs.com/itred
    ***版权声明:本文版权归作者和博客园共有,欢迎转载,但请在文章显眼位置标明文章出处。未经本人书面同意,将其作为他用,本人保留追究责任的所有权利。
  • 相关阅读:
    JZOJ 4.1 B组 删数
    JZOJ 4.1 B组 无限序列
    JZOJ 4.1 C组 【GDOI2005】电路稳定性
    JZOJ 4.1 C组【GDOI2005】积木分发
    SSL 1614——医院设置[最短路]
    SSL 1761——城市问题[最短路]
    SSL 1760——商店选址问题(最短路)
    SSL 1613——最短路径问题(最短路)
    JZOJ 3.25 1422——【汕头市选2012初中组】步行(walk)
    JZOJ 3.25 1421【汕头市选2012初中组】数数(count)
  • 原文地址:https://www.cnblogs.com/itred/p/4190402.html
Copyright © 2011-2022 走看看