一次Spark应用程序参数优化案例

zoukankan html css js c++ java

一次Spark应用程序参数优化案例
并行度

对于*ByKey等需要shuffle而生成的RDD，其Partition数量依如下顺序确定：1. 方法的第二个参数 > 2. spark.default.parallelism参数 > 3. 所有依赖的RDD中，Partition最多的RDD的Partition的数量。

对于其他的RDD则其依赖于父RDD的分区个数。对于读取Hadoop文件的RDD，其默认的分区个数是HDFS块个数。同时textFile函数也接受参数，指定分区个数，但不能小于HDFS块个数——不使用HDFS块个数。

优化内存

当内存不足时，Spark应用程序运行时，会出现超时而导致任务失败。原因是内存不足，引起GC。而GC又引起通讯超时。其中的一种解决办法如下：

1、减小用于cache的内存比例

将spark.storage.memoryFraction参数改为（默认为0.6）。

2、增加并行度

加大spark.default.parallelism参数。

以总数据大小为3.6G、只有两个NodeManager节点(三个中扣掉一个要跑Driver,每节点1vCPU,480M可用内存)为例。3.6G=(3600M/并行度100)*2 CPU核=72M内存。则每节点内存为：72M/2=36M内存。

480M > 36M内存，所以足够（这还没有算上临时对象等其他内存）。

常见配置
```
spark-defaults.conf:
    spark.default.parallelism           100
    spark.storage.memoryFraction        0.2
    spark.executor.memory               480m
    spark.yarn.am.memory                400m
    #for yarn-clent mode
    spark.yarn.am.cores                 1
    #for yarn-cluter mode
    #spark.driver.cores                 1
spark-env.sh:
    JAVA_OPTS=" -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps"
```
查看全文

相关阅读:
原则之读书笔记(生活篇)
为 Nginx 添加 HTTP 基本认证(HTTP Basic Authentication)
Linux搜索所有文件中的内容
 Js实现Table动态添加一行的小例子
 Android必学之数据适配器BaseAdapter
技术共享之常见的6中种方法检测手机是否是虚拟机
 修改MySql数据库的默认时
 space.php
self.location.href
宝塔搭建laravel所需要的lnmp环境linux-nginx-mysql-php-composer-git

原文地址：https://www.cnblogs.com/seaspring/p/5679097.html

一次Spark应用程序参数优化案例

并行度

优化内存

常见配置