Spark OOM：java heap space，OOM:GC overhead limit exceeded解决方法

zoukankan html css js c++ java

Spark OOM：java heap space，OOM:GC overhead limit exceeded解决方法
问题描述：

在使用spark过程中，有时会因为数据增大，而出现下面两种错误:

java.lang.OutOfMemoryError: Java heap space

java.lang.OutOfMemoryError：GC overhead limit exceeded

这两种错误之前我一直认为是executor的内存给的不够，但是仔细分析发现其实并不是executor内存给的不足，而是driver的内存给的不足。在standalone client模式下用spark-submit提交任务时（standalone模式部署时，默认使用的就是standalone client模式提交任务），我们自己写的程序（main）被称为driver，在不指定给driver分配内存时，默认分配的是512M。在这种情况下，如果处理的数据或者加载的数据很大（我是从hive中加载数据），driver就可能会爆内存，出现上面的OOM错误。

解决方法：

参考：http://spark.apache.org/docs/latest/configuration.html

方法一：在spark-submit中指定 --driver-memory memSize参数来设定driver的jvm内存大小，可以通过spark-submit --help查看其他可以设置的参数。

eg:
./spark-submit --master spark://7070 --class $MAIN_CLASS --executor-memory 3G --total-executor-cores 10 --driver-memory 2g --name $APP_NAME --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" "$SPARK_APP_JAR"
方法二：在spark_home/conf/目录中，将spark-defaults.conf.template模板文件拷贝一份到/spark_home/conf目录下，命名为spark-defaults.conf，然后在里面设置spark.driver.memory memSize属性来改变driver内存大小。

eg:
spark.master spark://master:7077 spark.default.parallelism 10 spark.driver.memory 2g spark.serializer org.apache.spark.serializer.KryoSerializer spark.sql.shuffle.partitions 50
查看全文

相关阅读:
flash处理安全策略
 flash builder 命令行创建 AsDoc
如何永久关闭选项"Tools > Close Other Forms"
Oracle EBS Reports 日期格式与客户端日期格式（控制面板 > 区域和语言选项）
ora00600 Metalink ID: 752428.1
如何修改台EBS的用户密码
 dbms_utility.format_error_backtrace() 返回错误行
 SQL*PLUS命令的使用大全
 APPPER50022 (system administrator > profile > system . HR:User Type)
客户端连接数据时会报“ORA12537：TNS连接已关闭”

原文地址：https://www.cnblogs.com/wrencai/p/4231934.html