spark安装

zoukankan html css js c++ java

spark安装
地址
- 官网地址: http://spark.apache.org/
- 文档查看地址: https://spark.apache.org/docs/2.1.1/
- 下载地址: https://spark.apache.org/downloads.html
集群规划

首先我们要确认我们的Linux主机是否安装了scala，如果没有安装则需要安装，5台机器都需要安装
学习scala时使用的是2.12版本，所以我们选择spark2.4.2及以上的版本

Spark Standalone模式

1.安装使用

1）进入spark安装目录下的conf文件夹

cd spark/conf/

2）修改配置文件名称

mv slaves.template slaves
mv spark-env.sh.template spark-env.sh

3）修改slave文件，添加work节点：

vim slaves
```
hadoop101
hadoop102
hadoop103
```
4）修改spark-env.sh文件，添加如下配置：

vim spark-env.sh
```
export JAVA_HOME=/soft/module/jdk1.8.0_161
export SPARK_MASTER_HOST=hadoop100
export SPARK_MASTER_PORT=7077
```
5）分发spark包

xsync spark/

6）启动(在Master)

sbin/start-all.sh
xcall.sh
```
------------------- hadoop100 --------------
10021 Jps
9944 Master
------------------- hadoop101 --------------
9159 Jps
9096 Worker
------------------- hadoop102 --------------
8740 Worker
8804 Jps
------------------- hadoop103 --------------
8749 Worker
8813 Jps
```
网页查看：hadoop100:8080
注意：如果遇到 “JAVA_HOME not set” 异常，可以在sbin目录下的spark-config.sh 文件中加入如下配置：
export JAVA_HOME=XXXX

7）官方求PI案例
```
bin/spark-submit 
--class org.apache.spark.examples.SparkPi 
--executor-memory 1G 
--total-executor-cores 2 
./examples/jars/spark-examples_2.12-3.0.0-preview2.jar 
100
```
8）启动spark shell
```
/soft/module/spark/bin/spark-shell 
--master spark://hadoop100:7077 
--executor-memory 1g 
--total-executor-cores 2
```
参数：--master spark://hadoop100:7077指定要连接的集群的master
执行WordCount程序
```
scala>sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

res0: Array[(String, Int)] = Array((hadoop,6), (oozie,3), (spark,3), (hive,3), (atguigu,3), (hbase,6))

scala>
```
2.JobHistoryServer配置

1）修改spark-default.conf.template名称

mv spark-defaults.conf.template spark-defaults.conf

2）修改spark-default.conf文件，开启Log：

vim spark-defaults.conf
```
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop100:9000/directory
```
注意：HDFS上的目录需要提前存在。
hadoop fs -mkdir /directory

3）修改spark-env.sh文件，添加如下配置：

vim spark-env.sh
```
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.retainedApplications=30 
-Dspark.history.fs.logDirectory=hdfs://hadoop100:9000/directory"
```
参数描述：
spark.eventLog.dir：Application在运行过程中所有的信息均记录在该属性指定的路径下；
spark.history.ui.port=18080 WEBUI访问的端口号为18080
spark.history.fs.logDirectory=hdfs://hadoop102:9000/directory 配置了该属性后，在start-history-server.sh时就无需再显式的指定路径，Spark History Server页面只展示该指定路径下的信息
spark.history.retainedApplications=30指定保存Application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。

4）分发配置文件

xsync spark-defaults.conf
xsync spark-env.sh

5）启动历史服务

sbin/stop-history-server.sh

6）再次执行任务
```
bin/spark-submit 
--class org.apache.spark.examples.SparkPi 
--executor-memory 1G 
--total-executor-cores 2 
./examples/jars/spark-examples_2.12-3.0.0-preview2.jar 
100
```
7）查看历史服务

hadoop100:18080

3.HA配置

1）zookeeper正常安装并启动

2）修改spark-env.sh文件添加如下配置：

vim spark-env.sh

注释掉如下内容：
```
#SPARK_MASTER_HOST=hadoop100
#SPARK_MASTER_PORT=7077
```
添加上如下内容：
```
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER 
-Dspark.deploy.zookeeper.url=hadoop101,hadoop102,hadoop103 
-Dspark.deploy.zookeeper.dir=/spark"
```
3）分发配置文件

xsync spark-env.sh

4）在hadoop100上(Master)启动全部节点

sbin/start-all.sh

5）在hadoop101上单独启动master节点

sbin/start-master.sh

6）spark HA集群访问
```
/soft/module/spark/bin/spark-shell 
--master spark://hadoop100:7077,hadoop102:7077 
--executor-memory 2g 
--total-executor-cores 2
```
7) 执行程序
```
bin/spark-submit 
--class org.apache.spark.examples.SparkPi 
--master spark://hadoop100:7077,hadoop101:7077 
--executor-memory 1G 
--total-executor-cores 2 
./examples/jars/spark-examples_2.12-3.0.0-preview2.jar 
100
```
```
./spark-shell --master spark://hadoop100:7077,hadoop101:7077

hadoop fs -mkdir -p /spark/input
hadoop fs -put RELEASE /spark/input

sc.textFile("/spark/input").flatMap(_.split(" ")).map(word=>(word,1)).reduceByKey(_+_).map(entry=>(entry._2,entry._1)).sortByKey(false,1).map(entry=>(entry._2,entry._1)).saveAsTextFile("/spark/output/")
```
Spark on yarn

好像只是启动命令上有区别

附:修改SparkUI界面默认端口号

SparkUI界面默认端口号为8080(可能会被占用,被占用后默认+1HTTP ERROR 404 Not Found),两种方法修改
1. 修改conf/spark-env.sh, 加上export SPARK_MASTER_WEBUI_PORT=8082
2. 修改 sbin/start-master.sh
```
if [ "$SPARK_MASTER_WEBUI_PORT" = "" ]; then
  SPARK_MASTER_WEBUI_PORT=8082
fi
```
附：spark 三种部署模式的区别对比

源网页:https://www.cnblogs.com/eric666666/p/11228825.html
人生之事岂能尽如人意，生活如戏，哭笑皆由人，悲喜自己定
查看全文

相关阅读:
java
java
Java hashCode() 和 equals()
Python可变参数*和**
Hadoop Mapreduce分区、分组、二次排序
 Java 内部类
 java valueOf()函数
 java接口和抽象类
 Java instanceof运算符
 JAVA ==号和equals()的区别

原文地址：https://www.cnblogs.com/Hephaestus/p/12362267.html

热门文章
Nginx 负载均衡演示之 upstream 参数 & location 参数
 Nginx之upstream的四种配置方式
 java
java
java
java
java基础
 java
java
java-基础

集群规划

Spark Standalone模式

1.安装使用

1）进入spark安装目录下的conf文件夹

2）修改配置文件名称

3）修改slave文件，添加work节点：

4）修改spark-env.sh文件，添加如下配置：

5）分发spark包

6）启动(在Master)

7）官方求PI案例

8）启动spark shell

2.JobHistoryServer配置

1）修改spark-default.conf.template名称

2）修改spark-default.conf文件，开启Log：

3）修改spark-env.sh文件，添加如下配置：

4）分发配置文件

5）启动历史服务

6）再次执行任务

7）查看历史服务

3.HA配置

1）zookeeper正常安装并启动

2）修改spark-env.sh文件添加如下配置：

3）分发配置文件

4）在hadoop100上(Master)启动全部节点

5）在hadoop101上单独启动master节点

6）spark HA集群访问

7) 执行程序

Spark on yarn

附:修改SparkUI界面默认端口号

附：spark 三种部署模式的区别对比