zoukankan      html  css  js  c++  java
  • 深度学习中损失值(loss值)为nan(以tensorflow为例)

    我做的是一个识别验证码的深度学习模型,识别的图片如下

    验证码图片识别4个数字,数字间是有顺序的
    验证码图片识别4个数字,数字间是有顺序的,设立标签时设计了四个onehot向量链接起来,成了一个长度为40的向量,然后模型的输入也是40维向量
    用softmax_cross_entropy_with_logits(labels=,logits=)函数计算输出与标签的损失,发现损失值一直在增大,直到nan。
    然后打印了输出值,发现也是很大。觉得是梯度爆炸的原因,用梯度裁剪、限制权重值等方法一通结束之后发现根本没什么改变。
    最后只放入两张图片,发现模型拟合的仍然不够好。这么大的网络不能拟合好两张图片显然是不对的。我将正则化、droupout、滑动平均全部注释掉,将代码化简到最小,并且替换了之前的没有问题的别的模型,扔存在这个问题。想到了应该处在最原始的图片标签与损失函数上,检查了图片标签发现都能对应上,最后看损失函数发现softmax_cross_entropy_with_logits(labels=,logits=)损失函数算40维向量之间的损失的实际意义是计算40个分类中排名最靠前的4中可能,与分别计算4个10分类onehot值不同。总之是哪里出了问题,于是将标签与输出值都做了处理,分解成4个y=tf.reshape(y,[-1,4,10])。再用同样的损失函数处理。loss值立马下降。这里的问题我还没有太想明白,只是初步分析了一下解决的方法。如果有大神知道其中的缘由希望给予指点。

  • 相关阅读:
    [导入]一家公司招收.net高级程序员而出得一套卷子
    [导入].NET Remoting 实现分布式数据库查询
    [导入].NET面试题
    [导入]System.Web.Mail Send Mail
    Aspnet_regsql 碰到的问题解决
    subsnic实例!
    sql coalesce()函数、datalength()函数介绍及应用
    .NET2.0 验证控件常用的正则表达式 站长分享站
    C#日期函数所有样式大全
    SubSonic的sql插入
  • 原文地址:https://www.cnblogs.com/cun-yu/p/12737799.html
Copyright © 2011-2022 走看看