完全分布式:每台机器运行一个进程的服务
需要在多台计算机上分别运行主节点和从节点。在这种模式下,Hadoop的相关进程分别运行在多个节点上,形成一个真正意义上的集群。
注意:每台机器的配置是相同的
1.下载Hadoop。
这一步,和伪分布式一样,需要注意的是,在slave1和slave2上需做同样的动作。
2.安装Hadoop。
这一步,和伪分布式一样,需要注意的是,在slave1和slave2上需做同样的动作。
3.配置Hadoop。
在这一步,需要注意的是,master、slave1和slave2上必须要保持一样的配置。
第1个:hadoop-env.sh,保持不变。
第2个:core-site.xml,保持不变。
第3个:hdfs-site.xml。因为现在有2个从节点,所以将数据副本数量设置为2:
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.secondary.http.address</name>
<value>192.168.128.131:50090</value>
</property>
copy
第4个:mapred-site.xml,保持不变。
第5个:yarn-site.xml,保持不变。
第6个:slaves。需要改写:
slave1
slave2
修改完成后将hadoop文件复制到其他机器。注意,删除tmp文件。
rm -rf hadoop/tmp
格式化文件格式
hdfs namenode -format
启动:
start-dfs.sh
start-yarn.sh
访问
dfs--webui
http://192.168.10.100:50070/
yarn-ui
http://192.168.10.100:8088/cluster/nodes
停止:
stop-yarn.sh
start-dfs.sh