zoukankan      html  css  js  c++  java
  • Spark集群安装

    一、系统配置
    3台虚拟机
    hadoop1: 4g内存 2核 80g硬盘
    hadoop2 2g内存 1核 12g硬盘
    hadoop3: 2g内存 1核 12g硬盘
    client: 1g内存 1核 12g硬盘
    二、scala安装

    1、下载scala-2.12.8.tgz安装包

    curl -O https://www.scala-lang.org/files/archive/scala-2.12.8.tgz
    

    2、远程传输到hadoop2、hadoop3、client节点上

    scp scala-2.12.8.tgz root@hadoop2:`pwd`
    scp scala-2.12.8.tgz root@hadoop3:`pwd`
    scp scala-2.12.8.tgz root@client:`pwd`
    

    3、解压安装文件

    tar zxvf scala-2.12.8.tgz
    

    4、添加环境变量

    #scala配置
    SCALA_HOME=/usr/scala-2.12.8
    export PATH=$PATH:$SCALA_HOME/bin
    

    5、安装验证

    二、spark集群安装
    1、下载spark-2.4.5-bin-without-hadoop.tgz安装包

    curl -O https://mirror.bit.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-without-hadoop.tgz
    

    2、远程传输到hadoop2、hadoop3、client节点上

    scp spark-2.4.5-bin-without-hadoop.tgz root@hadoop2:`pwd`
    scp spark-2.4.5-bin-without-hadoop.tgz root@hadoop3:`pwd`
    scp spark-2.4.5-bin-without-hadoop.tgz root@client:`pwd`
    

    3、解压安装包

    tar zxvf spark-2.4.5-bin-without-hadoop.tgz
    

    4、编辑配置文件

    /usr/local/softwareinstall/spark-2.4.5/conf
    

    (1)slaves

    mv slaves.template slaves   
    vim slaves  
    

    添加如下配置

    hadoop2
    hadoop3
    

    (2)spark-env.sh

    mv spark-env.sh.template spark-env.sh
    vim spark-env.sh
    

    添加如下配置

    export JAVA_HOME=/usr/java/jdk1.8.0_172
    export SCALA_HOME=/usr/scala-2.12.8
    #master节点ip
    export SPARK_MASTER_IP=hadoop1
    #应用程序提交端口
    export SPARK_MASTER_PORT=7077
    #每个worker节点管理的内存数
    export SPARK_WORKER_MEMORY=2g
    #每个worker节点管理的cores数
    export SPARK_WORKER_CORES=3
    export SPARK_MASTER_WEBUI_PORT=8888
    

    当使用不含hadoop的安装文件配置时(xxx--without-hadoop.tgz),还需要添加如下配置,告知spark关于hadoop的安装信息

    export SPARK_DIST_CLASSPATH=$(/usr/local/softwareinstall/hadoop-3.1.3/bin/hadoop classpath)
    

    参考:Using Spark's "Hadoop Free" Build

    5、重命名spark集群启动脚本名称(/usr/local/softwareinstall/spark-2.4.5/sbin/start-all.sh)
    避免与hadoop的start-all.sh脚本(启动hdfs、yarn集群)冲突

    mv start-all.sh start-spark.sh
    

    6、添加环境变量

    vim /etc/profile
    

    添加如下配置

    #spark环境变量配置
    SPARK_HOME=/usr/local/softwareinstall/spark-2.4.5
    export PATH=$PATH:$SPARK_HOME/sbin
    
    source /etc/profile   #使修改生效
    

    7、启动spark集群

    ./sbin start-spark.sh
    

    8、ui界面观察

    hadoop1:8888
    

    参考:
    (1)spark2.4.5
    http://spark.apache.org/docs/latest/

  • 相关阅读:
    Chrome禁用缓存
    国内阿里Maven仓库镜像Maven配置文件Maven仓库速度快
    spring boot 之热部署
    Spring Boot的Maven插件Spring Boot Maven plugin详解
    在Extjs 的 TabPanel在 title标题栏上加按扭button
    Entity Framework 基于Oracle的code first 问题汇总
    面向对象设计原则
    Asp.Net MVC 缓存设计
    Asp.Net MVC 身份认证
    Asp.Net MVC 请求原理分析
  • 原文地址:https://www.cnblogs.com/hxuhongming/p/12905986.html
Copyright © 2011-2022 走看看