zoukankan      html  css  js  c++  java
  • 3节点集群搭建

    https://www.cnblogs.com/chaoren399/articles/4749513.html
    
    集群的概念
    
    计算机集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。
    
    l 集群系统中的单个计算机通常称为节点,通常通过局域网连接。
    
    l 集群技术的特点:
    
    通过多台计算机完成同一个工作。达到更高的效率
    
    两机或多机内容、工作过程等完全一样。如果一台死机,另一台可以起作用。
    
    
    集群搭建:
    
    第一部分: linux机器准备工作(3台)
    
    1.安装VMWare软件
    
    
    
    2.在VMWare软件下linux系统
    
    
    3.配置VMWare虚拟软件网卡,保证Windows机器能和虚拟机linux正常通信
    
    
    Ø 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.0.0 子网掩码:255.255.255.0 -> apply -> ok
    
    Ø 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1 -> 属性 -> 双击IPv4 -> 设置windows的IP:192.168.0.100 子网掩码:255.255.255.0 -> 点击确定
    
    Ø 在虚拟软件上 --My Computer -> 选中虚拟机 -> 右键 -> settings -> network adapter -> host only -> ok
    
    3.1 修改主机名
    
    vim /etc/sysconfig/network
    
    NETWORKING=yes
    
    HOSTNAME=zookeeperServer1 ###
    
    3.2 设置linux机器IP
    
    Ø 第一种:通过Linux图形界面进行修改(普通程序员专用)
    
    进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections -> 选中当前网络System eth0 -> 点击edit按钮 -> 选择IPv4 -> method选择为manual -> 点击add按钮 -> 添加IP:192.168.0.2 子网掩码:255.255.255.0 网关:192.168.0.1 -> apply
    
    
    192.168.19.100
    
    
    Ø 第二种:修改配置文件方式(屌丝程序员专用)
    
    vim /etc/sysconfig/network-scripts/ifcfg-eth0
    
    DEVICE="eth0"
    
    BOOTPROTO="static" ###
    
    HWADDR="00:0C:29:3C:BF:E7"
    
    IPV6INIT="yes"
    
    NM_CONTROLLED="yes"
    
    ONBOOT="yes"
    
    TYPE="Ethernet"
    
    UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"
    
    IPADDR="192.168.0.101" ###(注意:是每台机器对应的地址)
    
    NETMASK="255.255.255.0" ###
    
    GATEWAY="192.168.0.1" ###
    
    3.3修改主机名和IP的映射关系(注意:这里是3台机器对应的映射关系)
    
    vim /etc/hosts
    
    
    scp -r 
    
    hadoop1 192.168.0.101 zookeeperServer1  nameNode1  resourceManager1
    
    hadoop2 192.168.0.102 zookeeperServer2  nameNode2  resourceManager2
    
    hadoop3 192.168.0.103 zookeeperServer3
    
    
    
    
    
    3.4关闭防火墙
    
    #查看防火墙状态
    
    service iptables status
    
    #关闭防火墙
    
    service iptables stop
    
    #查看防火墙开机启动状态
    
    chkconfig iptables --list
    
    #关闭防火墙开机启动
    
    chkconfig iptables off
    
    3.4 重启系统
    
    reboot
    
    3.5  配置免密码登陆
    
    生成ssh免登陆密钥
    
    
    
    #在hadoop0上生产一对钥匙
    cd ~/.ssh
    
    ssh-keygen -t rsa (四个回车)
    
    执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
    
    #将公钥拷贝到其他节点,包括自己
    
    ssh-copy-id nameNode1
    
    每个节点重复上述两个操作
    
    
    
     4.安装JDK
    
     上传
    
     解压jdk
    
    #创建文件夹
    
    mkdir /usr/java
    
    #解压
    
    tar -zxvf jdk-7u79-linux-i586.tar.gz -C /usr/java/
    
    Ø 将java添加到环境变量中
    
    vim /etc/profile
    
    #在文件最后添加
    
    JAVA_HOME=/usr/java/jdk1.7.0_79
    
    export PATH=$JAVA_HOME/bin:$PATH
    
    #刷新配置
    
    source /etc/profile
    
    
    第二部分: 搭建Hadoop集群详细步骤:
    
    1.安装配置zooekeeper集群(在hadoop1上)
    
    1.1解压
    
    tar -zxvf zookeeper-3.4.6.tar.gz -C /hadoop/
    
    1.2修改配置
    
    cd /hadoop/zookeeper-3.4.6/conf/
    
    cp zoo_sample.cfg zoo.cfg
    
    vim zoo.cfg
    
    修改:dataDir=/hadoop/zookeeper-3.4.6/tmp
    
    在最后添加:
    
    server.1=hadoop0:2888:3888
    
    server.2=hadoop1:2888:3888
    
    server.3=hadoop2:2888:3888
    
    保存退出
    
    然后创建一个tmp文件夹
    
    mkdir /hadoop/zookeeper-3.4.6/tmp
    
    再创建一个空文件
    
    touch /hadoop/zookeeper-3.4.6/tmp/myid
    
    最后向该文件写入ID
    
    echo 1 > /hadoop/zookeeper-3.4.6/tmp/myid
    
    1.3将配置好的zookeeper拷贝到其他节点(首先分别在hadoop1、hadoop2 根目录下创建一个hadoop 目录:mkdir -p /hadoop/zookeeper-3.4.6)
    
     scp -r /hadoop/zookeeper-3.4.6 root@hadoop1:/hadoop/
    
     scp -r /hadoop/zookeeper-3.4.6 root@hadoop2:/hadoop/
    
    注意:修改hadoop1、hadoop2对应/hadoop/zookeeper-3.4.6/tmp/myid的内容
    
    hadoop1:
    
    echo 2 > /hadoop/zookeeper-3.4.6/tmp/myid
    
    hadoop2: 
    
    echo 3 > /hadoop/zookeeper-3.4.6/tmp/myid
    
    
    2.安装配置hadoop集群(在hadoop0 上操作)
    
    
    2.1解压
    
    tar -zxvf hadoop-2.6.0.tar.gz -C /hadoop/
    
    2.2配置HDFS(hadoop2.0所有的配置文件都在$HADOOP_HOME/etc/hadoop目录下)
    
    #将hadoop添加到环境变量中
    
    vim /etc/profile
    
    export JAVA_HOME=/usr/java/jdk1.7.0_79
    
    export HADOOP_HOME=/hadoop/hadoop-2.6.0
    
    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    
    source /etc/profile
    
    #hadoop2.0的配置文件全部在$HADOOP_HOME/etc/hadoop下
    
    cd /hadoop/hadoop-2.6.0/etc/hadoop
    
    2.2.1修改hadoop-env.sh
    
    export JAVA_HOME=/usr/java/jdk1.7.0_79
    
    2.2.2修改core-site.xml
    
    <configuration>
    
    <!-- 指定hdfs的nameservice为ns1 -->
    
    <property>
    
    <name>fs.defaultFS</name>
    
    <value>hdfs://ns1</value>
    
    </property>
    
    <!-- 指定hadoop临时目录 -->
    
    <property>
    
    <name>hadoop.tmp.dir</name>
    
    <value>/hadoop/hadoop-2.6.0/tmp</value>
    
    </property>
    
    <!-- 指定zookeeper地址 -->
    
    <property>
    
    <name>ha.zookeeper.quorum</name>
    
    <value>zookeeperServer1:2181,zookeeperServer2:2181,zookeeperServer3:2181</value>
    
    </property>
    
    </configuration>
    
    2.2.3修改hdfs-site.xml
    
    <configuration>
    
    <!--指定hdfs的nameservice为ns1,需要和core-site.xml中的保持一致 -->
    
    <property>
    
    <name>dfs.nameservices</name>
    
    <value>ns1</value>
    
    </property>
    
    <!-- ns1下面有两个NameNode,分别是nn1,nn2 -->
    
    <property>
    
    <name>dfs.ha.namenodes.ns1</name>
    
    <value>nn1,nn2</value>
    
    </property>
    
    <!-- nn1的RPC通信地址 -->
    
    <property>
    
    <name>dfs.namenode.rpc-address.ns1.nn1</name>
    
    <value>nameNode1:9000</value>
    
    </property>
    
    <!-- nn1的http通信地址 -->
    
    <property>
    
    <name>dfs.namenode.http-address.ns1.nn1</name>
    
    <value>nameNode1:50070</value>
    
    </property>
    
    <!-- nn2的RPC通信地址 -->
    
    <property>
    
    <name>dfs.namenode.rpc-address.ns1.nn2</name>
    
    <value>nameNode2:9000</value>
    
    </property>
    
    <!-- nn2的http通信地址 -->
    
    <property>
    
    <name>dfs.namenode.http-address.ns1.nn2</name>
    
    <value>nameNode2:50070</value>
    
    </property>
    
    <!-- 指定NameNode的元数据在JournalNode上的存放位置 -->
    
    <property>
    
    <name>dfs.namenode.shared.edits.dir</name>
    
    <value>qjournal://zookeeperServer1:8485;zookeeperServer2:8485;zookeeperServer3:8485/ns1</value>
    
    </property>
    
    <!-- 指定JournalNode在本地磁盘存放数据的位置 -->
    
    <property>
    
    <name>dfs.journalnode.edits.dir</name>
    
    <value>/hadoop/hadoop-2.6.0/journal</value>
    
    </property>
    
    <!-- 开启NameNode失败自动切换 -->
    
    <property>
    
    <name>dfs.ha.automatic-failover.enabled</name>
    
    <value>true</value>
    
    </property>
    
    <!-- 配置失败自动切换实现方式 -->
    
    <property>
    
    <name>dfs.client.failover.proxy.provider.ns1</name>
    
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    
    </property>
    
    <!-- 配置隔离机制方法,多个机制用换行分割,即每个机制暂用一行-->
    
    <property>
    
    <name>dfs.ha.fencing.methods</name>
    
    <value>
    
    sshfence
    
    shell(/bin/true)
    
    </value>
    
    </property>
    
    <!-- 使用sshfence隔离机制时需要ssh免登陆 -->
    
    <property>
    
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    
    <value>/root/.ssh/id_rsa</value>
    
    </property>
    
    <!-- 配置sshfence隔离机制超时时间 -->
    
    <property>
    
    <name>dfs.ha.fencing.ssh.connect-timeout</name>
    
    <value>30000</value>
    
    </property>
    
    </configuration>
    
    2.2.4修改mapred-site.xml
    
    <configuration>
    
    <!-- 指定mr框架为yarn方式 -->
    
    <property>
    
    <name>mapreduce.framework.name</name>
    
    <value>yarn</value>
    
    </property>
    
    </configuration>
    
    2.2.5修改yarn-site.xml
    
    <configuration>
    
    <!-- 开启RM高可靠 -->
    
    <property>
    
    <name>yarn.resourcemanager.ha.enabled</name>
    
    <value>true</value>
    
    </property>
    
    <!-- 指定RM的cluster id -->
    
    <property>
    
    <name>yarn.resourcemanager.cluster-id</name>
    
    <value>yrc</value>
    
    </property>
    
    <!-- 指定RM的名字 -->
    
    <property>
    
    <name>yarn.resourcemanager.ha.rm-ids</name>
    
    <value>rm1,rm2</value>
    
    </property>
    
    <!-- 分别指定RM的地址 -->
    
    <property>
    
    <name>yarn.resourcemanager.hostname.rm1</name>
    
    <value>resourceManager1</value>
    
    </property>
    
    <property>
    
    <name>yarn.resourcemanager.hostname.rm2</name>
    
    <value>resourceManager2</value>
    
    </property>
    
    <!-- 指定zk集群地址 -->
    
    <property>
    
    <name>yarn.resourcemanager.zk-address</name>
    
    <value>zookeeperServer1:2181,zookeeperServer2:2181,zookeeperServer3:2181</value>
    
    </property>
    
    <property>
    
    <name>yarn.nodemanager.aux-services</name>
    
    <value>mapreduce_shuffle</value>
    
    </property>
    
    </configuration>
    
    2.2.6修改slaves(slaves是指定子节点的位置,因为要在nameNode1上启动HDFS、在resourceManager1启动yarn,所以nameNode1上的slaves文件指定的是datanode的位置,resourceManager1上的slaves文件指定的是nodemanager的位置)
    
    zookeeperServer1
    
    zookeeperServer2
    
    zookeeperServer3
    
    
    
    首次启动与初始化hadoop集群
    
    ###注意:严格按照下面的步骤 先检查各台hadoop环境变量是否设置好
    
    2.5启动zookeeper集群(分别在hadoop0、hadoop1、hadoop2上启动zk)
    
     ZOOKEEPER_HOME=/hadoop/zookeeper-3.4.5
    
    cd /hadoop/zookeeper-3.4.5/bin/
    
    ./zkServer.sh start
    
    #查看状态:一个leader,两个follower
    
    ./zkServer.sh status
    
    2.6启动journalnode(分别在在hadoop0、hadoop1、hadoop2上执行)
    
    cd /hadoop/hadoop-2.6.0
    
    sbin/hadoop-daemon.sh start journalnode
    
    #运行jps命令检验,hadoop0、hadoop1、hadoop2上多了JournalNode进程
    
    2.7格式化HDFS
    
    #在hadoop0上执行命令:
    
    hdfs namenode -format
    
    #格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件,这里我配置的是/hadoop/hadoop-2.6.0/tmp,然后将/hadoop/hadoop-2.6.0tmp拷贝到hadoop1的/hadoop/hadoop-2.6.0下。
    
    
    
    scp -r /hadoop/hadoop-2.6.0/tmp/ root@hadoop1:/hadoop/hadoop-2.6.0/
    
    2.8格式化ZK(在hadoop1上执行即可)
    
    hdfs zkfc -formatZK
    
    
    2.9启动HDFS(在hadoop1上执行)
    
    sbin/start-dfs.sh
    
    2.10启动YARN(#####注意#####:是在hadoop0上执行start-yarn.sh,(可以把namenode和resourcemanager分开是因为性能问题,因为他们都要占用大量资源,所以把他们分开了,他们分开了就要分别在不同的机器上启动)
    
    sbin/start-yarn.sh
    
    
    3 验证集群是否可用
    启动完成后,可以统计浏览器访问:
    
    http://192.168.19.100:50070
    
    Overview 'hadoop0:9000' (active)
    
    http://192.168.19.101:50070
    
    Overview 'hadoop1:9000' (standby)
    
    (resourcemanager:http://192.168.19.100:8088/cluster)
    
    
    
    
    首先向hdfs上传一个文件
    
    hadoop fs -put /etc/profile /test
    
    hadoop fs -ls /
    
    通过浏览器访问:http://192.168.19.100:50070
    
    
    运行一下hadoop提供的demo中的WordCount程序:
    
    hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /test/profile  /test/out
    
    
    (下载页面需要重新配置本地电脑的hosts)
    
    
    
    以后重复启动的流程
    1. 启动zookeeper集群(分别在hadoop0、hadoop1、hadoop2上启动zk)
    
    cd /hadoop/zookeeper-3.4.5/bin/
    
    ./zkServer.sh start
    
    #查看状态:一个leader,两个follower
    
    ./zkServer.sh status
    
    2.启动journalnode(分别在在hadoop0、hadoop1、hadoop2上执行)
    
    cd /hadoop/hadoop-2.6.0
    
    sbin/hadoop-daemon.sh start journalnode
    
    #运行jps命令检验,hadoop0、hadoop1、hadoop2上多了JournalNode进程
    
    3.启动HDFS(在hadoop0上执行)
    
    sbin/start-dfs.sh (zookeeperServer 上多了datanode)
    
    4.启动YARN(在hadoop0上执行)
    
    sbin/start-yarn.sh
    
    5.最后启动执备resourcemanager(在hadoop1上执行)
    
    yarn-daemon.sh start resourcemanager
    
    
    
    
     一些启动命令:(***记住***)
    启动/关闭namenode
    
    hadoop-daemon.sh start/stop namenode
    
    启动/关闭datanode
    
    hadoop-daemon.sh start/stop datanode
    
    启动/关闭journalnode
    
    hadoop-daemon.sh start/stop journalnode
    
    启动/关闭resourcemanager
    
    yarn-daemon.sh start/stop resourcemanager
    
    启动zookeeper
    
    ./zkServer.sh start
    
    启动/关闭hdfs
    
    start-dfs.sh/stop-dfs.sh
    
    启动/关闭yarn
    
    start-yarn.sh/stop-yarn.sh
    

      

  • 相关阅读:
    根据wsdl反向生成webservice服务端(3种方法)
    WSDL4J解析WSDL文件方法
    Oracle高级查询之over(partition by..)
    SQL存储过程实例详解
    ios基础之UITableViewCell的重用(带示例原创)
    .net winform程序下使用firefox作为Web浏览器
    IOS高级编程之二:IOS的数据存储与IO
    IOS高级编程之一:多点触摸与手势验证
    ios基础之入门(一)
    jQuery源码分析之=>jQuery的定义
  • 原文地址:https://www.cnblogs.com/chaoren399/p/10709483.html
Copyright © 2011-2022 走看看