zoukankan      html  css  js  c++  java
  • Spark OOM:java heap space,OOM:GC overhead limit exceeded解决方法

    问题描述:

    在使用spark过程中,有时会因为数据增大,而出现下面两种错误:

    java.lang.OutOfMemoryError: Java heap space

    java.lang.OutOfMemoryError:GC overhead limit exceeded

    这两种错误之前我一直认为是executor的内存给的不够,但是仔细分析发现其实并不是executor内存给的不足,而是driver的内存给的不足。在standalone client模式下用spark-submit提交任务时(standalone模式部署时,默认使用的就是standalone client模式提交任务),我们自己写的程序(main)被称为driver,在不指定给driver分配内存时,默认分配的是512M。在这种情况下,如果处理的数据或者加载的数据很大(我是从hive中加载数据),driver就可能会爆内存,出现上面的OOM错误。

    解决方法:

    参考:http://spark.apache.org/docs/latest/configuration.html

    方法一:在spark-submit中指定 --driver-memory memSize参数来设定driver的jvm内存大小,可以通过spark-submit --help查看其他可以设置的参数。

    eg:

    ./spark-submit 
      --master spark://7070 
      --class $MAIN_CLASS 
      --executor-memory 3G 
      --total-executor-cores 10 
      --driver-memory 2g 
      --name $APP_NAME 
      --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" 
      "$SPARK_APP_JAR" 

    方法二:在spark_home/conf/目录中,将spark-defaults.conf.template模板文件拷贝一份到/spark_home/conf目录下,命名为spark-defaults.conf,然后在里面设置spark.driver.memory  memSize属性来改变driver内存大小。

    eg:

     spark.master                       spark://master:7077
     spark.default.parallelism          10
     spark.driver.memory                2g
     spark.serializer                   org.apache.spark.serializer.KryoSerializer
     spark.sql.shuffle.partitions       50
  • 相关阅读:
    Some ArcGIS Tools
    Optimization Algorithms
    BPTT
    Markdown 简明语法
    【转载】softmax的log似然代价函数(求导过程)
    DP tricks and experiences
    Google Chrome Keyboard Shortcuts
    【转载】如何掌握所有的程序语言
    转 C++ 面向对象程序设计的基本特点
    leetcode 18. 4Sum
  • 原文地址:https://www.cnblogs.com/wrencai/p/4231934.html
Copyright © 2011-2022 走看看