Hadoop 2.6.0分布式部署參考手冊
本列中。操作系统为Centos 7.0。JDK版本号为Oracle HotSpot 1.7,Hadoop版本号为Apache Hadoop 2.6.0。操作用户为hadoop。
2.2 Hadoop集群环境说明:
主机名 |
IP地址 |
角色 |
ResourceManager | |
ResourceManager & MR JobHistory Server |
NameNode | |
NameNode |
SecondaryNameNode | |
SecondaryNameNode |
DataNode01 | |
DataNode & NodeManager |
DataNode02 | |
DataNode & NodeManager |
DataNode03 | |
DataNode & NodeManager |
DataNode04 | |
DataNode & NodeManager |
DataNode05 | |
DataNode & NodeManager |
注:上述表中用”&”连接多个角色,如主机”ResourceManager”有两个角色。分别为ResourceManager和MR JobHistory Server。
2.1 加入hadoop用户
useradd hadoop
2.2 JDK 1.7安装
Centos 7自带的JDK版本号为 OpenJDK 1.7,本例中须要将其更换为Oracle HotSpot 1.7版。本例中採用解压二进制包方式安装。安装文件夹为/opt/。
① 查看当前JDK rpm包
rpm -qa | grep jdk
java-1.7.0-openjdk- java-1.7.0-openjdk-headless-
② 删除自带JDK
rpm -e --nodeps java-1.7.0-openjdk-
rpm -e --nodeps java-1.7.0-openjdk-headless-
③ 安装指定JDK
④ 配置环境变量
#JAVA export JAVA_HOME=/opt/jdk1.7 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=$JAVA_HOME/lib export CLASSPATH=$CLASSPATH:$JAVA_HOME/jre/lib
2.3 SSH无password登陆配置
① 须要设置如上表格所看到的8台主机间的SSH无password登陆。
② 进入hadoop用户的根文件夹下并通过命令ssh-keygen -t rsa 生成秘钥对
③ 创建公钥认证文件authorized_keys并将生成的~/.ssh文件夹下的id_rsa.pub文件 的内容输出至该文件:
more id_rsa.pub > auhorized_keys
④ 分别改变~/.ssh文件夹和authorized_keys文件的权限:
chmod 700 ~/.ssh;chmod 600 ~/.ssh/authorized_keys
⑤ 每一个节点主机都反复以上步骤,并将各自的~/.ssh/id_rsa.pub文件的公钥拷贝至其 他主机。
rm -rf ~/.ssh;ssh-keygen -t rsa;chmod 700 ~/.ssh;more ~/.ssh/id_rsa.pub > ~/.ssh/authorized_keys;chmod 600 ~/.ssh/authorized_keys;
注:在centos 6中能够用dsa方式:ssh-keygen -t dsa命令来设置无password登陆,在centos 7中仅仅能用rsa方式。否则仅仅能ssh无password登陆本机。无能登陆它机。
2.4 改动hosts映射文件
分别编辑各节点上的/etc/hosts文件,加入例如以下内容: ResourceManager NameNode SecondaryNameNode DataNode01 DataNode02 DataNode03 DataNode04 DataNode05 NodeManager01 NodeManager02 NodeManager03 NodeManager04 NodeManager05
3.1 通用部分安装及配置
① 将hadoop安装包(hadoop-2.6.0.tar)拷贝至/opt文件夹下,并解压:
tar -xvf hadoop-2.6.0.tar
② 更改hadoop安装文件夹hadoop-2.6.0的全部者为hadoop用户:
chown -R hadoop.hadoop /opt/hadoop-2.6.0
③ 加入环境变量:
#hadoop export HADOOP_HOME=/opt/hadoop-2.6.0 export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin
3.2 各节点配置
4.1 格式化集群HDFS文件系统
安装完成后。需登陆NameNode节点或任一DataNode节点运行hdfs namenode -format格式化集群HDFS文件系统;
① 登陆ResourceManger运行start-yarn.sh命令启动集群资源管理系统yarn
② 登陆NameNode运行start-dfs.sh命令启动集群HDFS文件系统
③ 分别登陆SecondaryNameNode、DataNode01、DataNode02、DataNode03、DataNode04 节点执行jps命令。查看每一个节点是否有例如以下Java进程执行:
各个DataNode节点执行的进程:DataNode & NodeManager
1 core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://NameNode:9000</value> <description>NameNode URI</description> </property> </configuration>
- 属性”fs.defaultFS“表示NameNode节点地址,由”hdfs://主机名(或ip):port号”组成。
2 hdfs-site.xml
<configuration> <property> <name>dfs.namenode.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///home/jack/hadoopdata/hdfs/datanode</value> </property <property> <name>dfs.namenode.secondary.http-address</name> <value>SecondaryNameNode:50090</value> </property> </configuration>
- 属性“dfs.namenode.name.dir”表示NameNode存储命名空间和操作日志相关的元数据信息的本地文件系统文件夹。该项默认本地路径为”/tmp/hadoop-{username}/dfs/name”;
- 属性”dfs.datanode.data.dir“表示DataNode节点存储HDFS文件的本地文件系统文件夹。由”file://本地文件夹”组成,该项默认本地路径为”/tmp/hadoop-{username}/dfs/data”。
- 属性“dfs.namenode.secondary.http-address”表示SecondNameNode主机及port号(假设无需额外指定SecondNameNode角色,能够不进行此项配置);
3 mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> <description>Execution framework set to Hadoop YARN.</description> </property> </configuration>
- 属性”mapreduce.framework.name“表示执行mapreduce任务所使用的执行框架,默觉得local,须要将其改为”yarn”
4 yarn-site.xml
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>ResourceManager</value> <description>ResourceManager host</description> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> <description>Shuffle service that needs to be set for Map Reduce applications.</description> </property> </configuration>
- 属性”yarn.resourcemanager.hostname”用来指定ResourceManager主机地址;
- 属性”yarn.nodemanager.aux-service“表示MR applicatons所使用的shuffle工具类
5 hadoop-env.sh
export JAVA_HOME=/opt/jdk-1.7
6 slaves
DataNode01 DataNode02 DataNode03 DataNode04 DataNode05
NodeManager01 NodeManager02 NodeManager03 NodeManager04 NodeManager05
