1. scala 安装
1、准备工作
scala
:scala-2.13.6.tar.gz
2、安装
// 将 scala-2.13.6.tar.gz 拷贝到 /home/hadoop/apps 解压
cd /home/hadoop/apps
tar -zxvf scala-2.13.6.tar.gz
// 环境变量配置
export SCALA_HOME=/home/hadoop/apps/scala-2.13.6
export PATH=$PATH:$SCALA_HOME/bin
source ~/.bashrc
2. spark 安装
2.1 准备工作
- 下载地址,用的包版本:
spark-2.2.0-bin-hadoop2.7.tgz
集群规划
Master | Worker | |
---|---|---|
hadoop1: 192.168.131.137 | 1 | 1 |
hadoop2: 192.168.131.138 | 1 | |
hadoop3: 192.168.131.139 | 1 |
2.2 详细步骤
1、解压
cd /home/hadoop/apps
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz
// 修改名称(名字太长)
mv spark-2.2.0-bin-hadoop2.7.tgz spark-2.2.0
2、修改配置文件
修改 spark-env.sh
cd spark-2.2.0/conf
mv spark-env.sh.template spark-env.sh
vim spark-env.sh
// 添加以下内容
export JAVA_HOME=/home/hadoop/apps/jdk1.8.0_261
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.5/etc/hadoop
// 设置Master的主机名
export SPARK_MASTER_HOST=hadoop1
// 提交Application的端口,默认就是这个,万一要改呢,改这里
export SPARK_MASTER_PORT=7077
// 每一个Worker最多可以使用的cpu core的个数,我虚拟机就一个...
// 真实服务器如果有32个,你可以设置为32个
export SPARK_WORKER_CORES=1
// 每一个Worker最多可以使用的内存,我的虚拟机就2g
// 真实服务器如果有128G,你可以设置为100G
export SPARK_WORKER_MEMORY=1g
export SPARK_HOME=/home/hadoop/apps/spark-2.2.0
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export SCALA_HOME=/home/hadoop/apps/scala-2.13.6
修改 slaves
mv slaves.template slaves
vim slaves
// 添加以下内容,配置 Worker 节点
#localhost
hadoop1
hadoop2
hadoop3
3、重命名 SPARK_HOME/sbin
下的start-all.sh
和stop-all.sh
,防止与 hadoop/sbin
中的冲突
cd spark-2.2.0/sbin
mv start-all.sh start-spark-all.sh
mv stop-all.sh stop-spark-all.sh
4、配置环境变量
vim ~/.bashrc
export SPARK_HOME=/home/hadoop/apps/spark-2.2.0
export PATH=$PATH:$SPARK_HOME/bin
source ~/.bashrc
5、分发到其他节点
sh xscp.sh spark-2.2.0/
6、启动 Spark
集群
cd spark-2.2.0/sbin/
// 启动
start-spark-all.sh
// 停止
stop-spark-all.sh
7、WebUI
:http://192.168.131.137:8080/