Spark--Yarn分布式部署模式

zoukankan html css js c++ java

Spark--Yarn分布式部署模式
Yarn分布式部署模式

独立部署（Standalone）模式由Spark自身提供计算资源，无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但是你也要记住，Spark主要是计算框架，而不是资源调度框架，所以本身提供的资源调度并不是它的强项，所以还是和其他专业的资源调度框架集成会更靠谱一些。

1、安装

（1）集群规划

hadoop101 hadoop102 hadoop103

Spark

NodeManager ResourceManager NodeManager

NameNode NodeManager

DataNode DataNode DataNode

（2）安装

直接解压对应的包即可
```
tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
```
2、修改配置文件

（1）修改hadoop配置文件/opt/module/hadoop/etc/hadoop/yarn-site.xml, 并分发
```

<property>
<name>yarn.nodemanager.pmem-check-enabled</name> 
<value>false</value>
</property>
 
<property>
<name>yarn.nodemanager.vmem-check-enabled</name> 
<value>false</value>
</property>
```
（2）修改conf/spark-env.sh，添加JAVA_HOME和YARN_CONF_DIR配置
```
export JAVA_HOME=/opt/module/jdk1.8.0_144
YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
```
3、配置历史服务器

（1）修改spark-defaults.conf.template文件名为spark-defaults.conf
```
mv spark-defaults.conf.template spark-defaults.conf
```
（2）修改spark-default.conf文件，配置日志存储路径，设置历史服务日志的访问信息，关联yarn和spark
```
spark.eventLog.enabled  true
spark.eventLog.dir  hdfs://hadoop101:9000/directory
spark.yarn.historyServer.address=hadoop101:18080 
spark.history.ui.port=18080
```
（3）修改spark-env.sh文件，添加日志配置
```
export SPARK_HISTORY_OPTS=" 
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://hadoop101:9000/directory 
-Dspark.history.retainedApplications=30"
```
（4）启动历史服务
```
sbin/start-history-server.sh
```
4、启动HDFS以及Yarn集群

hdfs的namenode在hadoop101上，所以需要到hadoop101启动
```
sbin/start-dfs.sh
```
yarn的resourcemanager设置在hadoop102上，所以需要到hadoop102上启动
```
sbin/start-yarn.sh
```
5、提交测试应用以及查看历史页面

（1）提交应用的模式现在为cluster模式，此时控制台不会打印结果
```
bin/spark-submit  --class org.apache.spark.examples.SparkPi --master yarn  --deploy-mode cluster ./examples/jars/spark-examples_2.12-3.0.1.jar  10
```
（2）提交应用的模式现在为client模式，此时控制台会打印程序的输出结果
```
bin/spark-submit  --class org.apache.spark.examples.SparkPi --master yarn  --deploy-mode client ./examples/jars/spark-examples_2.12-3.0.1.jar  10
```
6、查看历史日志

http://hadoop102:8088

访问该页面后，点击对应application的history就可以查看相关的运行过程。
查看全文

相关阅读:
Object转bigdecimal
如何在A用户下建立视图，这个视图是A的表与B的表进行关联的?
java.util.Date和java.sql.Date的区别和相互转化(转)
JAVA如何获取GUID
详解Oracle DELETE和TRUNCATE 的区别（摘）
分开显示Excel2010打开的文档
 CentOS实验三：使用安装光盘建立本地软件源
 基本C库函数
 Shell_2(验证符合的输入)
Shell_1(目录之间切换执行脚本)

原文地址：https://www.cnblogs.com/yxym2016/p/14145571.html

hadoop101	hadoop102	hadoop103
Spark
NodeManager	ResourceManager	NodeManager
NameNode	NodeManager
DataNode	DataNode	DataNode

Spark--Yarn分布式部署模式

Yarn分布式部署模式

1、安装

（1）集群规划

（2）安装

2、修改配置文件

（1）修改hadoop配置文件/opt/module/hadoop/etc/hadoop/yarn-site.xml, 并分发

（2）修改conf/spark-env.sh，添加JAVA_HOME和YARN_CONF_DIR配置

3、配置历史服务器

（1）修改spark-defaults.conf.template文件名为spark-defaults.conf

（2）修改spark-default.conf文件，配置日志存储路径，设置历史服务日志的访问信息，关联yarn和spark

（3）修改spark-env.sh文件，添加日志配置

（4）启动历史服务

4、启动HDFS以及Yarn集群

5、提交测试应用以及查看历史页面

6、查看历史日志