zoukankan      html  css  js  c++  java
  • 【问题跟踪】KryoException: java.io.IOException: No space left on device

    今天在对LDA进行不同參数训练模型。记录其avglogLikelihood和logPerplexity,以便推断模型训练是否收敛时,产生了一个令人极度崩溃的事儿:程序在辛辛苦苦跑了7.3h后...挂了!

    证据例如以下:


    早上一来看这张图,好像跑完了,然后点进去看...然后就没有然后了



    每次迭代都须要9min左右,迭代了近50次跟我说挂了,确实挺让人奔溃的。


    先说说我的配置以及LDA參数吧

    5 * 40cores cpu 

    5* 500g memory

    參数:



    没办法,既然都崩溃了,跟进去找问题呗



    磁盘没空间了!

    这是什么鬼...于是常规的,先从网上找找,看看有没有人有类似的问题。结果还真让我发现两个

    Spark:java.io.IOException: No space left on device

    spark參数配置调优

    发现第一个的回答中比較实用的是这个:



    同一时候,结合第二个中的解释



    基本上定位到应该是spark.local.dir文件夹用来存放shuffle产生的暂时文件的空间不够用了。

    好吧,那看看自己的配置咯



    这下子好玩儿了。配置的local文件夹空间剩余杠杠的,机器上还剩大概600G(关键是总共5台啊。!

    !总共至少3T空间)。跟我说No space left on device确定不是在逗我的?好吧,看来应该不是shuffle文件存储的空间不足了。

    怎么办?问题总不能摆着儿吧,没办法,那就跟进去spark的UI慢慢研究咯



    等等!

    还真发现点儿规律,为什么报错的都是同一台机器。然后想到之前的一个任务也有fails,赶紧打开看看,验证一下





    看来果然是这样了。如今规律是发现了,那为什么会这样啊?刚才看到的bigdata04上的磁盘空间是全然够用的啊,真是奇了怪了!

    等等!突然想起来,我好像是在这台机启动的任务



    也就是说,bigdata04是我的driver。

    原来如此。既然是driver。那么跟存储有关的就仅仅有提交任务时配置的參数--driver-memory 50g这个了。



    并且。好像刚才查看运行过程的时候。shuffle write也是非常大的


    那就试着把--driver-memory这个參数调大点吧。

    先记录到这里,等结果出来后再看看。假设没问题了再改动本文总结一下!


  • 相关阅读:
    IE hack [if IE]解决IE CSS 兼容问题
    jQuery重要插件、JS辅助工具
    几个jQueryUI框架
    推荐书籍
    Win7下用原生的ie6调试网页
    Code First :使用Entity. Framework编程(3)
    Code First :使用Entity. Framework编程(6)
    JSON数据格式转换
    Code First :使用Entity. Framework编程(5)
    Code First :使用Entity. Framework编程(4)
  • 原文地址:https://www.cnblogs.com/jhcelue/p/7374419.html
Copyright © 2011-2022 走看看