zoukankan      html  css  js  c++  java
  • hadoop 部署在centos 7 上

    一、准备工作  (文章写于 2019-6) 根据官方文档而来,请注意时间,官方可能有更新,以官方文档为准

      1. 配置网站参考: http://hadoop.apache.org/docs/r1.0.4/cn/cluster_setup.html

    http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html

      2.准备版本:

      先选定响应的hadoop和hbase版本,下面是2019-7-3日的截图信息:

    准备3台centOS 7

    关闭防火墙: systemctl stop firewalld.service
    禁用防火墙: systemctl disable firewalld.service
    查看防火墙状态   firewall-cmd --state
    重启 reboot

    二、实现三台机器ssh免密码登录

    首先,你要确保知道你的三台机子的名称和ip
    比如:我的三台分别是

    10.25.0.165 hadoop01
    10.25.0.221 hadoop02
    10.25.0.232 hadoop03


    1.检查机器的名称和IP
    检查机器名称
    用root账户登录,然后使用hostname命令查看机器名称

    [root@localhost etc]# hostname
    localhost.localdomain
    [root@localhost etc]#
    把他修改成我们想要的名称

    hostname   hadoop01
    修改之后检查一下,如果修改不成功,可以进入配置文件进行名称的修改。
    vim /etc/hostname          ##用vi进行修改
    类似的,将其他两个机器,

    分别改名为hadoop02和hadoop03

    使用ifconfig来检查电脑的ip

    [root@hadoop01 etc]# ifconfig
     
    如果你的虚拟机使用的是桥接的,ifconfig之后你还是不确定你的IP,建议使用CRT工具连接试试,能够成功联通的就是正确的IP。

    2.修改/etc/hosts文件
    修改三台机器的

    /etc/hosts

    文件,在里面添加如下内容(添加就行了,不需要删除)
    修改方法:可以使用vim命令,也可以再写一个hosts文件,拿到linux上覆盖。

    10.25.0.165 hadoop01
    10.25.0.221 hadoop02
    10.25.0.232 hadoop03


    Tip:IP地址不需要和我的一样,这里只是做一个映射。
    配置完成后使用ping命令检查这3个机器是否相互ping得通(互相检查一下)。

    [root@hadoop01 etc]# ping  -c 3  hadoop02
    PING hadoop02 (10.25.0.221) 56(84) bytes of data.
    64 bytes from hadoop02 (10.25.0.221): icmp_seq=1 ttl=64 time=0.416 ms
    64 bytes from hadoop02 (10.25.0.221): icmp_seq=2 ttl=64 time=0.431 ms
    64 bytes from hadoop02 (10.25.0.221): icmp_seq=3 ttl=64 time=0.458 ms
     
    --- hadoop02 ping statistics ---
    3 packets transmitted, 3 received, 0% packet loss, time 2003ms
    rtt min/avg/max/mdev = 0.416/0.435/0.458/0.017 ms
    [root@hadoop01 etc]#
    ping得通,说明机器是互联的,hosts配置正确。

    4.SSH免密码登陆--参考另外一篇博客

    三台机器之间可以互多测试几遍

    三、安装jdk和hadoop

    1.安装jdk
    见另外一篇教程

    2.下载hadoop
    http://hadoop.apache.org/releases.html
    选择合适的版本进行下载,我这边使用的是由上面的图中选择对应合适的版本: 2.8.5  

    https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.5/



    3.上传文件并进行解压
    在opt目录下新建一个名为hadoop的目录,并将下载得到的hadoop-2.9.1.tar.gz上载到该目录下。
    进入该目录,并进行解压操作:

    [root@hadoop01 ~]# cd   /opt/hadoop
    [root@hadoop01 hadoop]# tar  -xvf   hadoop-2.8.5.tar.gz


    在三台机器上重复这一操作。
    在/root目录下新建几个目录,复制粘贴执行下面的命令:

    mkdir  /root/hadoop
    mkdir  /root/hadoop/tmp
    mkdir  /root/hadoop/var
    mkdir  /root/hadoop/dfs
    mkdir  /root/hadoop/dfs/name
    mkdir  /root/hadoop/dfs/data

    四:配置Hadoop守护进程的环境 hadoop-env.sh

    进入:

    /usr/local/hadoop/hadoop-2.8.5/etc/hadoop

    vi hadoop-env.sh


    将 export   JAVA_HOME=${JAVA_HOME}
    修改为:
    export   JAVA_HOME=/opt/java/jdk1.8.0_171
    说明:修改为自己的JDK路径

    备注:

    管理员应该使用etc / hadoop / hadoop-env.shetc / hadoop / mapred-env.sh以及etc / hadoop / yarn-env.sh脚本来对Hadoop守护进程的进程环境进行特定于站点的自定义。

    至少,您必须指定JAVA_HOME,以便在每个远程节点上正确定义它。

    管理员可以使用下表中显示的配置选项配置各个守护程序:

    官方文档:

     五:配置Hadoop守护进程


    主要修改的配置文件都在这里,我们可以看一下。
    [root@hadoop01 hadoop]# ls /usr/local/hadoop/hadoop-2.8.5/etc/hadoop
    capacity-scheduler.xml  core-site.xml   hadoop-metrics2.properties  hdfs-site.xml            httpfs-signature.secret  kms-env.sh            log4j.properties  mapred-queues.xml.template  slaves                  yarn-env.cmd
    configuration.xsl       hadoop-env.cmd  hadoop-metrics.properties   httpfs-env.sh            httpfs-site.xml          kms-log4j.properties  mapred-env.cmd    mapred-site.xml             ssl-client.xml.example  yarn-env.sh
    container-executor.cfg  hadoop-env.sh   hadoop-policy.xml           httpfs-log4j.properties  kms-acls.xml             kms-site.xml          mapred-env.sh     mapred-site.xml.template    ssl-server.xml.example  yarn-site.xml

    其中:

      core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。

    1) 修改core-site.xml

    在<configuration>节点内加入配置:

     <property>
            <name>hadoop.tmp.dir</name>
            <value>/root/hadoop/tmp</value>
            <description>Abase for other temporary directories.</description>
       </property>
       <property>
            <name>fs.default.name</name>     //-NameNode URI
            <value>hdfs://hadoop01:9000</value>   
       </property>

    官方文档:

    中文:


    2)配置Hadoop守护进程的运行参数  hdfs-site.xml

    在<configuration>节点内加入配置:

    <property>
       <name>dfs.namenode.name.dir</name>      //NameNode持久存储命名空间和事务日志的本地文件系统上的路径。
       <value>/root/hadoop/dfs/name</value>
    </property>
    <property>
       <name>dfs.datanode.data.dir</name>   //逗号分隔的DataNode本地文件系统上的路径列表,它应该存储其块。如果这是逗号分隔的目录列表,则数据将存储在所有命名目录中,通常位于不同设备上。
       <value>/root/hadoop/dfs/data</value>
    </property>
    <property>
       <name>dfs.replication</name>
       <value>2</value>
    </property>
    

    其余的配置信息



    3)新建并且修改

    mapred-site.xml
    该版本中,有一个名为mapred-site.xml.template的文件,复制该文件,然后改名为mapred-site.xml,命令是:
    cp   /usr/local/hadoop/hadoop-2.8.5/etc/hadoop/mapred-site.xml.template     /usr/local/hadoop/hadoop-2.8.5/etc/hadoop/mapred-site.xml
    修改这个新建的mapred-site.xml文件,在<configuration>节点内加入配置:

    <property>
       <name>mapred.job.tracker</name>
       <value>hadoop01:49001</value>
    </property>
    <property>
          <name>mapred.local.dir</name>
           <value>/root/hadoop/var</value>
    </property>
    <property>
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
    </property>

    参考官方文档:

    4)修改slaves文件

    列出etc / hadoop / slaves文件中的所有从属主机名或IP地址,每行一个。Helper脚本(如下所述)将使用etc / hadoop / slaves文件一次在多个主机上运行命令。它不用于任何基于Java的Hadoop配置。为了使用此功能,必须为用于运行Hadoop的帐户建立ssh信任(通过无密码ssh或其他方式,如Kerberos)。

    conf/slaves文件中列出所有slave的主机名或者IP地址,一行一个。

    修改 /usr/local/hadoop/hadoop-2.8.5/etc/hadoop/slaves 文件,将里面的localhost删除,添加如下内容:


    hadoop02
    hadoop03


    5)修改 yarn-site.xml 文件

    修改  /usr/local/hadoop/hadoop-2.8.5/etc/hadoop/yarn-site.xml文件, 在<configuration>节点内加入配置(注意了,内存根据机器配置越大越好,我这里只配2个G是因为机器不行):

    <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>hadoop01</value>
       </property>
       <property>
            <description>The address of the applications manager interface in the RM.</description>
            <name>yarn.resourcemanager.address</name>
            <value>${yarn.resourcemanager.hostname}:8032</value>
       </property>
       <property>
            <description>The address of the scheduler interface.</description>
            <name>yarn.resourcemanager.scheduler.address</name>
            <value>${yarn.resourcemanager.hostname}:8030</value>
       </property>
       <property>
            <description>The http address of the RM web application.</description>
            <name>yarn.resourcemanager.webapp.address</name>
            <value>${yarn.resourcemanager.hostname}:8088</value>
       </property>
       <property>
            <description>The https adddress of the RM web application.</description>
            <name>yarn.resourcemanager.webapp.https.address</name>
            <value>${yarn.resourcemanager.hostname}:8090</value>
       </property>
       <property>
            <name>yarn.resourcemanager.resource-tracker.address</name>
            <value>${yarn.resourcemanager.hostname}:8031</value>
       </property>
       <property>
            <description>The address of the RM admin interface.</description>
            <name>yarn.resourcemanager.admin.address</name>
            <value>${yarn.resourcemanager.hostname}:8033</value>
       </property>
       <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
       </property>
       <property>
            <name>yarn.scheduler.maximum-allocation-mb</name>
            <value>2048</value>
            <discription>每个节点可用内存,单位MB,默认8182MB</discription>
       </property>
       <property>
            <name>yarn.nodemanager.vmem-pmem-ratio</name>
            <value>2.1</value>
       </property>
       <property>
            <name>yarn.nodemanager.resource.memory-mb</name>
            <value>2048</value>
    </property>
       <property>
            <name>yarn.nodemanager.vmem-check-enabled</name>
            <value>false</value>
    </property>

     参考官方的解释:

    参考中文翻译:

     


    六、启动hadoop

    完成所有必要的配置后,将文件分发到所有计算机上HADOOP_CONF_DIR目录。这应该是所有计算机上的同一目录。

    通常,建议HDFS和YARN作为单独的用户运行。在大多数安装中,HDFS进程以'hdfs'的形式执行。YARN通常使用'yarn'帐户。

    将hadoop移动到另外两个机器上:

    scp -r /usr/local/hadoop/hadoop-2.8.5 root@hadoop02:/usr/local/hadoop
    scp -r /usr/local/hadoop/hadoop-2.8.5 root@hadoop03:/usr/local/hadoop



    1.在namenode上执行初始化

    因为hadoop01是namenode,hadoop02和hadoop03都是datanode,所以只需要对hadoop01进行初始化操作,也就是对hdfs进行格式化。

    [root@hadoop01 hadoop]# cd  /usr/local/hadoop/hadoop-2.8.5/bin
    [root@hadoop01 bin]#  ./hadoop  namenode  -format
    ...
    ...
    不报错的话,就是顺利的执行完初始化了;
    格式化成功后,可以在看到在/root/hadoop/dfs/name/目录多了一个current目录,而且该目录内有一系列文件:

    [root@hadoop01 bin]# cd /root/hadoop/dfs/name/
    [root@hadoop01 name]# ls
    current  in_use.lock
    [root@hadoop01 name]# ls current/
    edits_0000000000000000001-0000000000000000002  edits_0000000000000000005-0000000000000000006  fsimage_0000000000000000004      fsimage_0000000000000000006      seen_txid
    edits_0000000000000000003-0000000000000000004  edits_inprogress_0000000000000000007           fsimage_0000000000000000004.md5  fsimage_0000000000000000006.md5  VERSION
    [root@hadoop01 name]#
    2.执行启动命令:
    [root@hadoop01 name]# cd   /usr/local/hadoop/hadoop-2.8.5/sbin
    [root@hadoop01 sbin]# ./start-all.sh
    ...

     启动完成后,输入命令jps来判断是否启动成功
    五、测试hadoop
    hadoop01是我自己的主机,ip是10.25.0.165
    所以访问:
    http://10.25.0.165:50070/
    http://10.25.0.165:8088/

    执行命令  hdfs

    解决办法:在 /etc/profile 中加入

    export HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.5/bin
    export PATH=$PATH:$HADOOP_HOME

    如下命令查看状态:

    hdfs dfsadmin -report

  • 相关阅读:
    预备作业02:体会做中学(Learning By Doing)
    寒假作业01
    20210418第 237 场周赛(一)
    机器学习第七堂课20210415
    云计算与信息安全第七节课20210413
    操作系统第七堂课2021年0412内存管理基础
    机器学习第六堂课20210408
    云计算与信息安全第六节课20210406
    机器学习第五节课20210401
    云计算与信息安全第五堂课20210330
  • 原文地址:https://www.cnblogs.com/leolzi/p/10986337.html
Copyright © 2011-2022 走看看