hadoop在线重启namenode+在线扩展集群

zoukankan html css js c++ java

hadoop在线重启namenode+在线扩展集群

1.执行步骤

   修改dfs.namenode.handler.count=150 ()

   NameNode 有一个工作线程池用来处理客户端的远程过程调用及集群守护进程的调用。处理程序数量越多意味着要更大的池来处理来自不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说，通常需要增大参数dfs.namenode.handler.count的默认值10。设置该值的一般原则是将其设置为集群大小的自然对数乘以20，即20logN，N为集群大小。如果前面的描述你仍然觉得很不清楚，可以看下面的python程序（其中的200表示集群的大小）

   python -c 'import math ; print int(math.log(200) * 20)'

   standby：

   hadoop-daemon.sh stop namenode

   hadoop-daemon.sh start namenode

   观察前台，safemode is off 后

   active：

   hdfs dfsadmin -failover nn2 nn1

   确认成功后

   active：

   hadoop-daemon.sh stop namenode

   hadoop-daemon.sh start namenode

问题：nn1变为active后，出现了很多missingblock，从时间上看都是最新的blk，怀疑是切换中漏掉的blk，原因待进一步分析日志。

2.一次扩展40台机器

   cat excludes

   cat yarn-excludes

   cat slaves

   注：集群未设白名单

   批量操作脚本如下：

   hadoop-daemons.sh --hostnames "$(grep /rack/？ app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr ' ' ' ')" start datanode
   yarn-daemons.sh --hostnames "$(grep /rack/？ app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr ' ' ' ')" start nodemanager


   for i in 05 06 07 08 09 10
   do
   hadoop-daemons.sh --hostnames "$(grep /rack/$i app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr ' ' ' ')" start datanode
   yarn-daemons.sh --hostnames "$(grep /rack/$i app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr ' ' ' ')" start nodemanager
   done
问题：①active namenode 挂掉，原因：同时大批量增加datanode，导致namenode处理不过来，hang住超时，自动failover到standbynamenode，对改nn实施了fencing，使其挂掉了，自动failover成功；
        ②扩充集群后，ganglia性能仍是一路飘红，但是我认为这资源利用充分，不是问题，提高了效率就算有效。

查看全文

相关阅读:
ABP文档
 SqlServer英文单词全字匹配
 npm不是以管理身份运行遇到的问题
 concurrenthashmap jdk1.8
HashSet源码分析 jdk1.6
Iterator设计模式--jdk1.7
代理模式
 高并发下的HashMap，ConcurrentHashMap
HashMap源码分析jdk1.6
Stack&Vector源码分析 jdk1.6

原文地址：https://www.cnblogs.com/roger888/p/5819414.html

热门文章
ABP框架
 ABP框架
 ABP框架
 ABP框架
 ABP框架
 ABP框架
 ABP框架
 ABP框架
 ABP框架
 ABP框架