环境是centos6.4-32,hadoop2.2.0
伪分布式文档:http://pan.baidu.com/s/1kTrAcWB
完全分布式文档:http://pan.baidu.com/s/1sjK4gkl
和1.x、0.x有些不同,特别是yarn。
这里面有个小插曲,在完全分布式模式配置yarn的时候必须指定ResourceManager的地址
这个地址在伪分布式模式上不用指定,因为默认地址是0.0.0.0,也就是本地
但是完全分布式模式必须指定,因为不指定slave就不知道哪台是ResourceManager
在2.x中不仅datanode要向namenode报告HDFS的情况,还要向ResourceManager报告nogemanager的情况
这样会出现一种情况,就是启动后namnode和datanode上面的进程都启动起来了,但是hadoop cluster上显示
的active nodes为0
配置方法有两种,如果你端口都是使用的默认的,就只需要改掉yarn.resourcemanager.hostname这个变量
这个变量的功能类似于JAVA_HOME,用来被别人引用。
如果你端口不使用默认的,就在下面每个引用的地方的${yarn.resourcemanager.hostname}改为master的
名称或者地址
安装过程中,由于是实验环境,namenode的tmp目录没有像其他文档一样放在Linux系统的/tmp目录下
(Linux系统的/tmp目录在系统重启后会清除)
在Hadoop中主机名不支持下划线“_”,支持“-”