zoukankan      html  css  js  c++  java
  • [会装]Spark standalone 模式的安装

    1. 简介

      以standalone模式安装spark集群bin运行demo。

    2.环境和介质准备

      2.1 下载spark介质,根据现有hadoop的版本选择下载,我目前的环境中的hadoop版本是2.6,所以下载spark-2.0.0-bin-hadoop2.6.tgz

      当然你也可以下载源码自行根据hadoop版本进行编译,这里不再赘述。

      地址:http://ftp.cuhk.edu.hk/pub/packages/apache.org/spark/spark-2.0.0/

      

      2.2 环境准备  

    主机名称 进程名称
    xufeng-1 work
    xufeng-2 work
    xufeng-3 master

     3. 安装步骤:

      【以下步骤不单独说明所有主机都需要执行】

      步骤 1:将介质包拷贝到服务器上,并将配置文件和bin文件分开。

      

      可以看到spark目录使用了软连接,配置文件被单独放在了spark-config中,这样做的目的是便于升级。

      步骤 2:设定环境变量.

      在~/.bash_profile文件中增加如下信息:

    #spark
    export SPARK_HOME=/opt/hadoop/spark
    export SPARK_CONF_DIR=/opt/hadoop/spark-config
    
    PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$ZOOKEEPER_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin

      步骤 3:配置slaves:

       打开spark-config目录下的slaves文件将work部署的主机名信息写入:

    # A Spark Worker will be started on each of the machines listed below.
    xufeng-1
    xufeng-2

      步骤 4:配置javahome

        打开spark-config目录下的spark-env.sh文件,设定如下信息(根据自己的java路径信息):

    # - SPARK_NICENESS      The scheduling priority for daemons. (Default: 0)
    export JAVA_HOME=/opt/hadoop/java/jdk1.7.0_79

       

    4. 启动集群 

      4.1 登录上master节点,也就是xufeng-3节点,进入spark/sbin目录,执行

    ./start-all.sh       ------- spark的脚本和hadoop的脚本是同名的,如果我们直接执行start-all.sh,那么很有可能执行的是hadoop的脚本,所以这里进入spark安装目录,具体调用他的脚本

      4.2 检查Master 的 webUI

    以上Mater和worker在standalone模式中就是一个资源管理器系统,分配app的资源使用或者我们可以直接说他是一个【Cluster Manager】。

    在其他模式中,如在YARN模式中资源的分配就交给YARN去处理,YARN集群就是【Cluster Manager】角色了。

    5. 验证

      进入spark-shell 简单的去执行一个任务用于验证  

      如果不知道后续参数,那么这个shell将会在本地执行,在Mater页面上是看不到信息的。

    spark-shell --master spark://xufeng-3:7077 --executor-memory 500M

                           

      1.创建一个rdd  

    scala> val rdd = sc.parallelize(List(1,2,3,4,5,6))

      2.执行两次count和一次collect操作(action操作)

    scala> rdd.count()
    res0: Long = 6
    
    scala> rdd.count()
    res1: Long = 6
    
    scala> rdd.collect
    res2: Array[Int] = Array(1, 2, 3, 4, 5, 6)

      查看页面监控:

      

    以上,standalone模式安装完毕。

  • 相关阅读:
    Using Boost C++ libraries with gcc g++ under Windows(cygwin+netbeans)
    RFC中文目录
    GNU Make 学习笔记(一)
    make
    ODBC连接ORACLE数据库的设置
    windows下boost开发环境简易教程(cygwin+eclipse)
    GNU Make(二)
    C++虚函数表解析(转)
    如何判断adoquery中字段值是不是空值?
    Delphi ListView基本用法大全
  • 原文地址:https://www.cnblogs.com/ios123/p/5999909.html
Copyright © 2011-2022 走看看