zoukankan      html  css  js  c++  java
  • Spark Standalone模式伪分布式环境搭建

    前提:安装好jdk1.7,hadoop

    安装步骤:

    1、安装scala

    下载地址:http://www.scala-lang.org/download/

    配置环境变量:

    export SCALA_HOME=/..../scala

    export PATH=.:$SCALA_HOME/bin   ....

    验证:scala -version

    2、安装spark

    使用自己编译过的对应自己hadoop的spark

    配置环境变量:

    export SPARK_HOME=/.../spark

    export PATH=.:$SPARK_HOME/bin   ....

    修改spark配置文件:

    1)$SPARK_HOME/conf/spark-env.sh

    export SPARK_MASTER_IP=hadoop000
    export SPARK_WORKER_CORES=1     #WorkNode分出几核给spark使用
    export SPARK_WORKER_INSTANCES=1  #WorkNode使用几个spark实例,一般一个就行了
    export SPARK_WORKER_MEMORY=1G  #WorkNode分出多少内存给spark使用
    export SPARK_WORKER_PORT=8888     #指定spark运行时的端口号

    2)$SPARK_HOME/conf/slave.sh

    配置worknode节点hostname,一行配置一个

    3)$SPARK_HOME/conf/spark-defaults.conf    (可选配置)

    参数配置参见:http://spark.apache.org/docs/latest/configuration.html

    spark.master spark://hadoop000:7077
    spark.local.dir /home/spark/spark_shuffle/ #配置spark shuffle数据存放路径
    spark.executor.memory 1g

    3、启动spark

    $SPARK_HOME下的sbin和bin说明:
    sbin:存放的是启动和停止spark集群等的命令;
    bin:存放的是应用程序(spark-shell)启动和停止等的命令。

    启动spark集群(sbin目录下):start-all.sh

    启动后浏览器访问:http://hadoop000:8080/    

    注:hadoop000为hostname,配置的属性可以在4040端口查看到,形如:http://hadoop000:4040/environment/

    启动spark-shell(bin目录下):

    1)单机启动方式:spark-shell

    2)集群启动方式:

    spark-shell --master spark://hadoop000:7077

    默认情况下Application的Memory是512M,申请所有的CPU资源;

    指定executor的memory和cpu core数:spark-shell --master spark://hadoop000:7077 --executor-memory 2g --total-executor-cores 1

    注意:executor-memory是每个executor占用的,而executor-cores是所有executor一共占用

    具体参数配置的来源:SparkSubmit.scala中的options属性

    为了启动方便起见,可以将master配置到spark-defaults.conf中

    spark.master spark://hadoop000:7077

    再启动spark-shell时,只需要: spark-shell

    如果要指定参数,则使用:spark-shell --executor-memory 2g --total-executor-cores 1 

    详细信息参见官方文档:http://spark.apache.org/docs/latest/spark-standalone.html#installing-spark-standalone-to-a-cluster

     

  • 相关阅读:
    oracle 进阶之model子句
    SiteMesh的使用--笔记
    JZ49:把字符串转换成整数
    面试题45:把数组排成最小的数
    面试题43:1~n整数中1出现的次数
    面试题42:连续子数组的最大和
    面试题41:数据中的中位数
    面试题40:最小的k个数
    面试题39:数组中出现次数超过一半的数字
    面试题38:字符串的排列
  • 原文地址:https://www.cnblogs.com/luogankun/p/3798404.html
Copyright © 2011-2022 走看看