zoukankan      html  css  js  c++  java
  • spark-2.1.1 yarn(高可用)搭建

    一、概述

      spark分布式搭建方式大致分为三种:standalone、yarn、mesos。三种分类的区别这里就不一一介绍了,不明白可自行了解。standalone是官方提供的一种集群方式,企业一般不使用。yarn集群方式在企业中应用是比较广泛的,这里也是介绍yarn的集群安装方式。mesos安装适合于超大型集群。

    集群节点分配:

    hadoop01:Zookeeper、NameNode(active)、ResourceManager(active)

    hadoop02:Zookeeper、NameNode(standby)

    hadoop03:Zookeeper、           ResourceManager(standby)

    hadoop04:      DataNode、    NodeManager、      JournalNode、  spark

    hadoop05:      DataNode、    NodeManager、      JournalNode、  spark

    hadoop06:      DataNode、    NodeManager、      JournalNode、  spark

    二、安装

      说明一下:

      ①选spark的时候要注意与hadoop版本对应。因为hadoop用的是2.7的,所以spark选的是spark-2.1.1-bin-hadoop2.7

      ②因为spark基于yarn来管理,spark只能安装在NodeManager节点上。

      ③spark安装放在/home/software目录下。

      1、hadoop基于yarn(ha)的搭建,这里介绍步骤了。在我的上一个教程里有详细介绍。

      2、安装scala,并配置好环境变量。

      3、在NodeManager节点上解压spark文件。

        tar -xvf spark-2.1.1-bin-hadoop2.7

      3、修改spark-2.1.1-bin-hadoop2.7/conf/spark-env.sh,在文件尾部加上以下内容,其中HADOOP_CONF_DIR是必填项

        export JAVA_HOME=/home/jack/jdk1.8.0_144
        export SCALA_HOME=/home/jack/scala-2.12.3
        export HADOOP_HOME=/home/software/hadoop-2.7.4
        export HADOOP_CONF_DIR=/home/software/hadoop-2.7.4/etc/hadoop
        export SPARK_MASTER_PORT=7077
        export SPARK_EXECUTOR_CORES=2
        export SPARK_EXECUTOR_MEMORY=1024m
        export SPARK_EXECUTOR_INSTANCES=1

      4、修改spark-2.1.1-bin-hadoop2.7/conf/slave文件,添加以下内容:

        hadoop04

        hadoop05

        hadoop06

      5、在hdfs上传spark的jar包,并修改/home/software/spark-2.1.1-bin-hadoop2.7/conf/spark-defaults.conf(可不做) 

        ①hadoop fs -mkdir /spark_jars

        ②hadoop fs -put  /home/software/spark-2.1.1-bin-hadoop2.7/jars/* /spark_jars

        ③修改/home/software/spark-2.1.1-bin-hadoop2.7/conf/spark-defaults.conf,添加以下内容:

          spark.yarn.jars=hdfs://hadoop01:9000/spark_jars/*

      6、完成以上操作就完成了spark基于yarn的安装。下面是验证部分:

       在安装有spark的节点上执行以下命令:  

        spark-submit --class org.apache.spark.examples.SparkPi
        --master yarn
        --deploy-mode cluster
        --driver-memory 1g
        --executor-memory 1g
        --executor-cores 1
        --num-executors 3
        /home/software/spark-2.1.1-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.1.jar
        10

    能看以上三张图就说明安装成功了!

    备注:如果执行spark-shell --master yarn --deploy-mode client失败,报rpc连接失败,解决方法如下:

    在hadoop的配置文件yarn-site.xml中加入:

    <property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
    </property>

    <property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
    </property>

    报错的原因是:内存资源给的过小,yarn直接kill掉进程,则报rpc连接失败、ClosedChannelException等错误。

        

       

      

  • 相关阅读:
    Unity shader with lightmap
    清理数据库日志
    Sqlserver数据库还原一直显示“正在还原…”解决方法
    如何查看 SQL Server 执行的历史 SQL 语句记录?
    MYSQL 命令行大全 (简洁、明了、全面)
    C#Datatable导入sqlserver数据库中,三种常见,快捷的方法
    MongoDB下载页面
    等级保护和分级保护区别与联系
    等级保护和分级保护
    SQL2005EXPress自动备份
  • 原文地址:https://www.cnblogs.com/runnerjack/p/7600810.html
Copyright © 2011-2022 走看看