zoukankan      html  css  js  c++  java
  • caffe: train error: Serializing 25 layers--- Check failed: proto.SerializeToOstream(&output)

    I0221 21:47:41.826748  6797 solver.cpp:259]     Train net output #0: loss = 0.00413362 (* 1 = 0.00413362 loss)
    I0221 21:47:41.826756  6797 solver.cpp:590] Iteration 9980, lr = 0.001
    I0221 21:47:44.453655  6797 solver.cpp:468] Snapshotting to binary proto file /home/d302/wangxiao/caffe-master/wangxiao/bvlc_alexnet/caffe_alexnet_train_iter_10000.caffemodel
    I0221 21:47:44.453685  6797 net.cpp:948] Serializing 25 layers
    F0221 21:47:47.096515  6797 io.cpp:69] Check failed: proto.SerializeToOstream(&output)
    *** Check failure stack trace: ***
        @     0x7f06066beb7d  google::LogMessage::Fail()
        @     0x7f06066c0c7f  google::LogMessage::SendToLog()
        @     0x7f06066be76c  google::LogMessage::Flush()
        @     0x7f06066c151d  google::LogMessageFatal::~LogMessageFatal()
        @     0x7f0606effe4e  caffe::WriteProtoToBinaryFile()
        @     0x7f0606e1d30f  caffe::WriteProtoToBinaryFile()
        @     0x7f0606e20a46  caffe::Solver<>::SnapshotToBinaryProto()
        @     0x7f0606e206ec  caffe::Solver<>::Snapshot()
        @     0x7f0606e1fe72  caffe::Solver<>::Step()
        @     0x7f0606e1f1d3  caffe::Solver<>::Solve()
        @           0x416280  train()
        @           0x418206  main
        @     0x7f0605be376d  (unknown)
        @           0x414fe9  (unknown)
    Aborted (core dumped)
    d302@d302-MS-7816-04:~/wangxiao/caffe-master$


    解决方案:  2016年8月14号 补充

    前两天有园友来问我,这个问题有没有解决,我回答说:忘了,好久之前的了,果然今天就出现了这个问题,昨晚跑的 VGG,出现了相同的问题,可是我之前跑那个代码 一直没问题啊,呃呃呃,我看错误是:

    Snapshotting to binary proto file /home/d302/wangxiao/caffe-master/wangxiao/bvlc_alexnet/caffe_alexnet_train_iter_10000.caffemodel

    Check failed: proto.SerializeToOstream(&output) 

     

    我扫了一眼,保存的 caffemodel,发现: _iter_10000.caffemodel 是存在的,但是 _iter_10000.solverstate 不在,估计是保存的问题,难道是空间不够用了?我删除了其他无关的 model,在 8000次迭代产生的 model上继续训练,待会就知道是否是 磁盘空间不足导致的问题了。。。

    目测,已经过了那个错误的点了,所以,解决这个问题的答案是:存储空间不足,清理磁盘空间吧 。。。

    另外,感谢园友的提醒,他解决的方法是:

      原来是之前穿件文件用了sudo,跑程序的时候没有加sudo,导致权限不够,加了sudo后就ok了

  • 相关阅读:
    DeepLearning.ai学习笔记(二)改善深层神经网络:超参数调试、正则化以及优化--Week2优化算法
    DeepLearning.ai学习笔记(二)改善深层神经网络:超参数调试、正则化以及优化--Week1深度学习的实用层面
    通俗理解决策树中的熵&条件熵&信息增益
    KNN实现手写数字识别
    softmax分类算法原理(用python实现)
    DeepLearning.ai学习笔记(一)神经网络和深度学习--Week4深层神经网络
    博客园自定义皮肤扁平化设计
    神经网络权重初始化问题
    OpenVirteX 安装
    从个人的角度谈谈本次GNTC大会的收获
  • 原文地址:https://www.cnblogs.com/wangxiaocvpr/p/5206119.html
Copyright © 2011-2022 走看看