深度学习中损失值(loss值)为nan（以tensorflow为例）

zoukankan html css js c++ java

深度学习中损失值(loss值)为nan（以tensorflow为例）

我做的是一个识别验证码的深度学习模型，识别的图片如下

验证码图片识别4个数字，数字间是有顺序的，设立标签时设计了四个onehot向量链接起来，成了一个长度为40的向量，然后模型的输入也是40维向量
用softmax_cross_entropy_with_logits(labels=,logits=)函数计算输出与标签的损失，发现损失值一直在增大，直到nan。
然后打印了输出值，发现也是很大。觉得是梯度爆炸的原因，用梯度裁剪、限制权重值等方法一通结束之后发现根本没什么改变。
最后只放入两张图片，发现模型拟合的仍然不够好。这么大的网络不能拟合好两张图片显然是不对的。我将正则化、droupout、滑动平均全部注释掉，将代码化简到最小，并且替换了之前的没有问题的别的模型，扔存在这个问题。想到了应该处在最原始的图片标签与损失函数上，检查了图片标签发现都能对应上，最后看损失函数发现softmax_cross_entropy_with_logits(labels=,logits=)损失函数算40维向量之间的损失的实际意义是计算40个分类中排名最靠前的4中可能，与分别计算4个10分类onehot值不同。总之是哪里出了问题，于是将标签与输出值都做了处理，分解成4个y=tf.reshape(y,[-1,4,10])。再用同样的损失函数处理。loss值立马下降。这里的问题我还没有太想明白，只是初步分析了一下解决的方法。如果有大神知道其中的缘由希望给予指点。

查看全文

相关阅读:
点击CheckBox让Gridview控件在编辑与正常状态之间切换
 BMP图片转换为JPEG图片
 ASP.NET截取网页注释行之间的内容
 Mouse点击之后，复制GridView控件的数据行
 Mouse单击高亮GridView数据行
 ASP.NET div信息提示框显示几秒后隐藏
 RDLC报表带搜索与传参数功能演示(ASP.NET MVC)
ASP.NET MVC应用程序使用axd格式文件
 Nginx通过geo模式实现限速白名单和全局负载均衡
 MySQL 下mysqladmin日常管理命令总结

原文地址：https://www.cnblogs.com/cun-yu/p/12737799.html