单机搭建了2.6.5的伪分布式集群,写了一个tf-idf计算程序,分词用的是结巴分词,使用standalone模式运行没有任何问题,切换到伪分布式模式运行一直报错:
hadoop is running beyond virtual memory limits
大概意思就是使用虚拟内存超出了限制。
网上参考了好几篇博客,几乎都是再说更改hadoop-env和mapred-site.xml
hadoop-env直接更改堆大小
export HADOOP_HEAPSIZE=1000
mapred-site.xml 更改opts的大小
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx4000m</value>
</property>
我的机器内存是8G,按理说这个程序运行应该是毫无压力的。。
提示说的虚拟内存,这两个估计是不挂钩,反正改了之后运行依旧报错
既然是虚拟内存不足,那就找虚拟内存的事,google一下找到如下配置
<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>15.5</value>
</property>
更改yarn-site.xml
我这之前运行给了5.5G,提示5.7G超过5.5G了,kill掉了container,索性一下给了15G,运行可算是正常了,看来出了问题,还是得从错误日志根源找起。