zoukankan      html  css  js  c++  java
  • Spark--Yarn分布式部署模式

    Yarn分布式部署模式

    ​ 独立部署(Standalone)模式由Spark自身提供计算资源,无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。但是你也要记住,Spark主要是计算框架,而不是资源调度框架,所以本身提供的资源调度并不是它的强项,所以还是和其他专业的资源调度框架集成会更靠谱一些。

    1、安装

    (1)集群规划

    hadoop101 hadoop102 hadoop103
    Spark
    NodeManager ResourceManager NodeManager
    NameNode NodeManager
    DataNode DataNode DataNode

    (2)安装

    直接解压对应的包即可

    tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
    

    2、修改配置文件

    (1)修改hadoop配置文件/opt/module/hadoop/etc/hadoop/yarn-site.xml, 并分发

    <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认 是 true -->
    <property>
    <name>yarn.nodemanager.pmem-check-enabled</name> 
    <value>false</value>
    </property>
    <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认 是 true --> 
    <property>
    <name>yarn.nodemanager.vmem-check-enabled</name> 
    <value>false</value>
    </property>
    

    (2)修改conf/spark-env.sh,添加JAVA_HOME和YARN_CONF_DIR配置

    export JAVA_HOME=/opt/module/jdk1.8.0_144
    YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
    

    3、配置历史服务器

    (1)修改spark-defaults.conf.template文件名为spark-defaults.conf

    mv spark-defaults.conf.template spark-defaults.conf
    

    (2)修改spark-default.conf文件,配置日志存储路径,设置历史服务日志的访问信息,关联yarn和spark

    spark.eventLog.enabled  true
    spark.eventLog.dir  hdfs://hadoop101:9000/directory
    spark.yarn.historyServer.address=hadoop101:18080 
    spark.history.ui.port=18080
    

    (3)修改spark-env.sh文件,添加日志配置

    export SPARK_HISTORY_OPTS=" 
    -Dspark.history.ui.port=18080 
    -Dspark.history.fs.logDirectory=hdfs://hadoop101:9000/directory 
    -Dspark.history.retainedApplications=30"
    

    (4)启动历史服务

    sbin/start-history-server.sh
    

    4、启动HDFS以及Yarn集群

    hdfs的namenode在hadoop101上,所以需要到hadoop101启动

    sbin/start-dfs.sh
    

    yarn的resourcemanager设置在hadoop102上,所以需要到hadoop102上启动

    sbin/start-yarn.sh
    

    5、提交测试应用以及查看历史页面

    (1)提交应用的模式现在为cluster模式,此时控制台不会打印结果

    bin/spark-submit  --class org.apache.spark.examples.SparkPi --master yarn  --deploy-mode cluster ./examples/jars/spark-examples_2.12-3.0.1.jar  10
    

    (2)提交应用的模式现在为client模式,此时控制台会打印程序的输出结果

    bin/spark-submit  --class org.apache.spark.examples.SparkPi --master yarn  --deploy-mode client ./examples/jars/spark-examples_2.12-3.0.1.jar  10
    

    6、查看历史日志

    http://hadoop102:8088

    访问该页面后,点击对应application的history就可以查看相关的运行过程。

  • 相关阅读:
    基础【五】字典的操作方法
    基础【四】列表的操作方法
    基础【三】字符串的操作方法
    基础【二】while循环及基本运算符
    基础【一】基础数据类型
    C++ string 深拷贝 与 浅拷贝
    多进程引用的动态链接库中的全局变量问题
    C++ 在类里面使用多线程技术
    openwrt 解决包依赖关系
    lua 的元表与元方法
  • 原文地址:https://www.cnblogs.com/yxym2016/p/14145571.html
Copyright © 2011-2022 走看看