Spark安装部署

zoukankan html css js c++ java

Spark安装部署
0x01 软件环境

Spark 官方提供了三种集群部署方案： Standalone, Mesos, YARN。其中 Standalone 最为方便，本文主要讲述结合 YARN 的部署方案。
软件环境：

CentOS_6.5_x64
hadoop-2.5.2
jdk-1.8.111
scala-2.11.11
spark-2.1.0

0x02 安装scala

2.1 下载

Spark官方要求 Scala 版本为 2.11.x，注意不要下错版本，我这里下了 2.11.11，官方下载地址http://www.scala-lang.org/download/

2.2 解压安装
```
$ tar  -zxvf  scala-2.10.4.tgz
$ mv scala-2.10.4 ~/cloud/
```
2.3 配置环境变量
```
# vim /etc/profile
//追加
export SCALA_HOME=$WORK_SPACE/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin
//使环境变量生效
# source /etc/profile
$ source /etc/profile
```
2.4 验证
```
$ scala -version #如果打印出如下版本信息，则说明安装成功
Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL
```
0x03 安装spark

3.1 下载

进入官方下载地址http://spark.apache.org/downloads.html下载最新版 Spark。我下载的是 spark-1.3.0-bin-hadoop2.4.tgz。

3.2 解压安装

tar -zxvf spark-1.3.0-bin-hadoop2.4.tgz

3.3 配置spark
```
cd ~/workspace/spark-1.3.0/conf    #进入spark配置目录
cp spark-env.sh.template spark-env.sh   #从配置模板复制
vi spark-env.sh     #添加配置内容
```
在spark-env.sh末尾添加以下内容（这是我的配置，你可以自行修改）：
```
export SCALA_HOME=/home/spark/workspace/scala-2.10.4
export JAVA_HOME=/home/spark/workspace/jdk1.7.0_75
export HADOOP_HOME=/home/spark/workspace/hadoop-2.6.0
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/home/spark/workspace/spark-1.3.0
SPARK_DRIVER_MEMORY=1G
```
注：在设置Worker进程的CPU个数和内存大小，要注意机器的实际硬件条件，如果配置的超过当前Worker节点的硬件条件，Worker进程会启动失败。

在slaves文件下填上slave主机名：
```
slave1
slave2
```
将配置好的spark-1.3.0文件夹分发给所有slaves

scp -r ~/workspace/spark-1.3.0 spark@slave1:~/workspace/

3.4 启动Spark

sbin/start-all.sh

3.5 验证

用jps检查，在 master 上应该有以下几个进程：
```
$ jps
7949 Jps
7328 SecondaryNameNode
7805 Master
7137 NameNode
7475 ResourceManager
```
在 slave 上应该有以下几个进程：
```
$jps
3132 DataNode
3759 Worker
3858 Jps
3231 NodeManager
```
进入Spark的Web管理页面： http://master:8080

0x04 运行示例
```
#本地模式两线程运行
./bin/run-example SparkPi 10 --master local[2]
#Spark Standalone 集群模式运行
./bin/spark-submit 
  --class org.apache.spark.examples.SparkPi 
  --master spark://master:7077 
  lib/spark-examples-1.3.0-hadoop2.4.0.jar 
  100
#Spark on YARN 集群上 yarn-cluster 模式运行
./bin/spark-submit 
    --class org.apache.spark.examples.SparkPi 
    --master yarn-cluster   # can also be `yarn-client`
    lib/spark-examples*.jar 
    10
```
注意 Spark on YARN 支持两种运行模式，分别为yarn-cluster和yarn-client，具体的区别可以看这篇博文，从广义上讲，yarn-cluster适用于生产环境；而yarn-client适用于交互和调试，也就是希望快速地看到application的输出

0x05 参考文献
- Spark On YARN 集群安装部署
2017-05-04 15:24:17 星期四
查看全文

相关阅读:
死磕 java线程系列之自己动手写一个线程池（续）
Spring Boot （十）： Spring Boot Admin 监控 Spring Boot 应用
 opencv之为图像添加边界
 协作，才能更好的中断线程
 Java并发——线程池Executor框架
 神经网络dropout
xgboost
物体检测-毕业设计项目回顾
 计算机网络-TCP连接
 gbdt推导和代码

原文地址：https://www.cnblogs.com/ning-wang/p/6994510.html

0x01 软件环境

0x02 安装`scala`

2.1 下载

2.2 解压安装

2.3 配置环境变量

2.4 验证

0x03 安装`spark`

3.1 下载

3.2 解压安装

3.3 配置spark

3.4 启动Spark

3.5 验证

0x04 运行示例

0x05 参考文献

Spark安装部署

0x01 软件环境

0x02 安装scala

2.1 下载

2.2 解压安装

2.3 配置环境变量

2.4 验证

0x03 安装spark

3.1 下载

3.2 解压安装

3.3 配置spark

3.4 启动Spark

3.5 验证

0x04 运行示例

0x05 参考文献

0x02 安装`scala`

0x03 安装`spark`