之前转载过一篇【伊利丹】写的NN HA实验记录。该博客描写叙述了主备NN透明切换的过程,也就是说,当主NN挂掉后,自己主动将备NN切换为主NN了,Hadoop集群正常执行。
今天我继续做了一个实验。目的是实现NN的切换不会对Client端程序造成影响,即NN切换对Client透明。
首先,非常重要的一点:
要保证core-site.xml中的
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://hadoop-cluster</value>
- </property>
- <property>
- <name>dfs.nameservices</name>
- <value>hadoop-cluster</value>
- </property>
其次:
/etc/hosts文件里无需为hadoop-cluster指定IP,hadoop-cluster仅仅是一个逻辑名,当程序或者命令通过hadoop-cluster訪问HDFS集群时,Hadoop会自己主动依据hdfs-site.xml的配置。去找到一个active的Namenode。
当然,hdfs-site.xml中的
- <property>
- <name>dfs.namenode.rpc-address.hadoop-cluster.namenode1</name>
- <value>NODE001:8020</value>
- </property>
- <property>
- <name>dfs.namenode.rpc-address.hadoop-cluster.namenode2</name>
- <value>NODE002:8020</value>
- </property>
最后就是Client了,
不管Namenode怎样切换,都能够在随意Hadoop节点上正常执行命令 hadoop dfs -ls hdfs://hadoop-cluster/ ,或者在程序中,将HDFS目标地址指定为 hdfs://hadoop-cluster 就可以正常执行程序。
关键在于。不通过IP地址或主备NN的主机名訪问HDFS。而是通过HDFS的逻辑名訪问。
这种话。命令和程序的执行与当前Active的Namenode是哪个节点毫无关系,一切皆透明,感觉真爽!