Hadoop执行作业时报错：java.lang.OutOfMemoryError: Java heap space

zoukankan html css js c++ java

Hadoop执行作业时报错：java.lang.OutOfMemoryError: Java heap space

常常被一些用户问到，说“为什么我的mapreduce作业总是运行到某个阶段就报出如下错误，然后失败呢？以前同一个作业没出现过的呀？”
10/01/10 12:48:01 INFO mapred.JobClient: Task Id : attempt_201001061331_0002_m_000027_0, Status : FAILED
java.lang.OutOfMemoryError: Java heap space
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:498)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:305)
        at org.apache.hadoop.mapred.Child.main(Child.java:158)

其实这样的错误有时候并不是程序逻辑的问题(当然有可能是由于程序写的不够高效，产生的内存消耗不合理而导致)，而是由于同样的作业，在数据量和数据本身发生不同时就会占据不同数量的内存空间。由于hadoop的mapreduce作业的运行机制是：在jobtracker接到客户端来的job提交后，将许多的task分配到集群中各个tasktracker上进行分块的计算，而根据代码中的逻辑可以看出，其实是在tasktracker上启了一个java进程进行运算，进程中有特定的端口和网络机制来保持map 和reduce之间的数据传输，所以，这些OOM的错误，其实就是这些java进程中报出了OOM的错误。
     知道了原因以后就好办了，hadoop的mapreduce作业启动的时候，都会读取jobConf中的配置（hadoop-site.xml），只要在该配置文件中将每个task的jvm进程中的-Xmx所配置的java进程的max heap size加大，就能解决这样的问题：
<property>
  <name>mapred.child.java.opts</name>
  <value>-Xmx1024m</value>
</property>

PS：该选项默认是200M

新版本应该是在conf/hadoop-env.sh文件中修改。默认为1000M

通过此配置可以增加hadoop的jvm可分配的的内存大小。

对于通过RPM or DEB方式来安装的，所有的配置文件在 /etc/hadoop目录下, /etc/hadoop/hadoop-env.sh 里设置了java可用的最大堆内存大小：

1

export HADOOP_CLIENT_OPTS="-Xmx128m $HADOOP_CLIENT_OPTS"

可以改变此设置为:

1

export HADOOP_CLIENT_OPTS="-Xmx2048m $HADOOP_CLIENT_OPTS"

来增加可用内存大小。

http://qiemengdao.iteye.com/blog/793591

查看全文

相关阅读:
java 生成二维码
 Web Service测试工具小汇
 ADF控件ID变化引发JS无法定位控件的解决方法
 create database link
Jdeveloper下Svn的使用
 TortoiseSVN菜单项功能说明
 JSFF或JSF页面加载时触发JavaScript之方法
 更改ORACLE归档路径及归档模式
 更改oracle归档模式路径
 将Oracle数据库设置为归档模式及非归档模式

原文地址：https://www.cnblogs.com/tangtianfly/p/3711272.html