zoukankan      html  css  js  c++  java
  • hadoop集群加入新节点hhbase调试

    一、改动vi /etc/hosts 添加节点ip、(没个节点都要加入 ) 
    二、设置hostname
        vi /etc/sysconfig/network
         把hostname改为node3
        验证:重新启动linux
        或者:hostname 主机名(这样设置是hostname暂时有效,重新启动后失效 )
    三、先设置本机的shh免password登陆
        操作:(1)产生密钥,运行命令ssh-keygen -t rsa,产生的密钥文件位于~/.ssh目录中
        (2)运行命令cp   ~/.ssh/id_rsa.pub   ~/.ssh/authorized_keys
    验证:ssh localhost
        机器之间设置ssh免password登陆
        主节点是master 从节点有node1 node2 node3 node4 
        在node1上
        (1)在node1上。把node1上的公钥复制给master,运行命令ssh-copy-id -i master
        (2)在node2上。把node2上的公钥复制给master。运行命令ssh-copy-id -i master
         ……
        (3)把master上的authorized_keys拷贝到node1,node2,node3,node4运行命令
      scp  /root/.ssh/authorized_keys   node1:/root/.ssh
      scp  /root/.ssh/authorized_keys   node2:/root/.ssh
          ……
        停用防火墙:service iptables stop
     四、复制hadoop0上的/usr/local/jdk、/usr/local/hadoop到node1、node2、……的相应文件夹下
            scp -r /usr/local/jdk1.7.0_60node1:/usr/local
            scp -r /usr/local/jdk1.7.0_60node2:/usr/local
    ……
    改动namenode的配置文件conf/slaves
    scp -r  /usr/local/hadoop-2.2.0 node1:/usr/local
    scp -r  /usr/local/hadoop-2.2.0 node2:/usr/local
    ……
      五、复制master上的/etc/hosts下的配置 到其它node1和node2 ……节点
      scp  master:/etc/profile   node1:/etc/profile
      而且还要在node1、node2、……上分别运行source  /etc/profile
      六、在master上运行格式化命令hadoop namenode -format
       hadoop namenode -format



    错误调试
    WARNING: POSSIBLE DNS SPOOFING DETECTED
    与SSHserver无关,仅仅需把.ssh文件夹下的文件删除就可以。

    下次使用ssh时文件会重建的。
    出现这问题的解决办法通常是同一主机使用了不同的username登陆。(假设多个域名和多个IP同一时候指向同一主机,ssh仍然视为不同主机。
    rm known_hosts
    然后在ssh一次就好了

    集群ssh配置总结
    先运行ssh-keygen -t rsa,产生密钥。文件位于root/.ssh/目录中,然后运行cp   ~/.ssh/id_rsa.pub   ~/.ssh/authorized_keys 进行授权(事实上是将本机产生的密钥放置公钥文件里)
    然后将本机的公钥文件复制给master,运行命令ssh-copy-id -i master,也就是master统一管理各个节点的公钥,然后master节点运行 scp  /root/.ssh/authorized_keys   node1:/root/.ssh

    会把每天机器上的公钥都会复制给node节点,这样node节点就能够通信了


    六、HDFS加入删除节点并进行hdfs balance 

    方式1:静态加入datanode。停止namenode方式 
    1.停止namenode 
    2.改动slaves文件,并更新到各个节点 
    3.启动namenode 
    4.运行hadoop balance命令。

    (此项为balance集群使用。假设仅仅是加入节点,则此步骤不须要) 


    方式2:动态加入datanode,不停namenode方式 
    1.改动slaves文件。加入须要添加的节点host或者ip,并将其更新到各个节点 
    2.在datanode中启动运行启动datanode命令。

    命令:sh hadoop-daemon.sh start datanode 
    3.能够通过web界面查看节点加入情况。

    或使用命令:sh hadoop dfsadmin -report 
    4.运行hadoop balance命令。(此项为balance集群使用,假设仅仅是加入节点,则此步骤不须要) 


    针对第4点,start-balancer.sh能够运行-threshold參数。

     
    -threshold參数是指定平衡的阈值。 
    -threshold的默认是10。即每一个datanode节点的实际hdfs存储使用量/集群hdfs存储量 


    举例: 
    datanode hdfs使用量1.2G; 
    集群总hdfs存储量10T即10000G。 
    则t值为1.2/10000 = 0.00012; 
    当运行balance的-t參数小于0.00012时,集群进行balance; 
    命令为:start-balancer.sh -threshold 0.0001 


    注: 
    1. balance命令能够在namenode或者datanode上启动。 
    能够随时停止balance命令。 
    balance的默认带宽是1M/s。 
    2. slave文件是用于重新启动时使用。集群的start和stop须要读取slave文件。

     
    启用datanode时仅仅要在hdfs-site中配置了namenode位置。就能够将信息push给namenode。 
    查看namenode的http管理界面。可查看节点加入情况。 




    HDFS删除节点 
    方式1:通过dead方式(namenode上): 
    1.sh hadoop dfsadmin  -refreshServiceAcl 
    说明:dead方式并未改动slave文件和hdfs-site文件。 
    所以在集群重新启动时。该节点不会被加入到namenode的管理中。 
    此次在namenode上进行。其它节点可另行实验。。该命令会将该节点状态置为dead。 


    方式2:通过decommission方式: 
    a) 改动hdfs-site,加入exclude字段中的排除的节点。

     
    b) 运行sh hadoop dfsadmin -refreshNodes,强制刷新。 
    c) 查看节点状态。该节点的状态为decommission。

     


    说明:decommission方式改动了hdfs-site文件。未改动slave文件。 
    所以集群重新启动时,该节点尽管会被启动为datanode,可是因为加入了exclude,所以namenode会将该节点置为decommission。

     
    此时namenode不会与该节点进行hdfs相关通信。也即exclude起到了一个防火墙的作用。 
    注: 
    1. 假设在某个节点单独停止datanode,那么在namenode的统计中仍会出现该节点的datanode信息。 
    此时可通过dead或者decommission(退役)方式下线机器。

     

    七、加入节点新节点后hbase 的HRegionServer起不来或启动治好有挂掉

     hbase的conf 配置文件hbase-site.xml中的

       <property>
       <name>hbase.zookeeper.quorum</name>
       <value>node1,node2,node3,node4,node5</value>  
       </property>

    建议位奇数个节点

    regionservers

    node1

    node2

    node3

    node4

    node5

    建议也位奇数个

    假设HRegionServer还是启动不起来,报错例如以下:

    Exception in thread "regionserver60020" java.lang.NullPointerException
    at org.apache.hadoop.hbase.regionserver.HRegionServer.run(HRegionServer.java:882)
    at java.lang.Thread.run(Thread.java:745)

    那么就须要看看各个节点的时间是否同样 

    命令例如以下:

    date

    改动

    date -s 改动的时间

    也能够每一个节点同步一下互联网时间;

    命令例如以下:

    ntpdate time-a.nist.gov

    然后在又一次start-hbase.sh( hadoop集群开启的情况下)、

    OK!祝你好运!




  • 相关阅读:
    优雅得使用composer来安装各种PHP小工具
    Docker学习总结之Docker与Vagrant之间的特点比较
    深入理解php 匿名函数和 Closure
    laravel 拾遗 中间件
    centos 手动编译 fcitx 各种问题大全
    Install haroopad on centos7
    centos7 編譯 chmsee
    centos 7 禁用笔记本触摸板设置
    理解 Linux 配置文件
    输入法环境变量XMODIFIERS/GTK_IM_MODULE
  • 原文地址:https://www.cnblogs.com/lxjshuju/p/6806609.html
Copyright © 2011-2022 走看看