如何解决loss NAN的问题

zoukankan html css js c++ java

如何解决loss NAN的问题

问题

　　如上图所示，第二次迭代时出现NAN值，nan表示无穷大或者非数值，一般是在一个数除以0或者log(0)时会出现无穷大。可能的原因有：1）学习率过大；2）batch过大；3）不当的损失函数等。

　　试着将学习率和batch分别调低，但还是会出现nan，说明不是学习率和batch的问题。

定位loss NAN的方法

　　使用tensorflow的代码调试模块tfdbg，可以看到运行tensorflow graph时的内部结构体和状态，方便排查变量出现NAN、inf的情况。tfdbg的官方文档介绍 https://www.tensorflow.org/versions/master/how_tos/debugger/

　　使用过滤器可以帮助查找异常值，命令：run -f has_inf_or_nan。如下图所示，在第一行中has_inf_or_nan过滤器在第一次Session.run调用期间第一次被触发。第一个出现异常值的tensor是计算欧式距离的tensor。

　　点第一个打印出来的结果如下图，发现其中有个值是-inf。

　　点击node_info查看该节点的信息，如下图所示。该节点的操作是SqrtGrad，有两个输入。

　　点击第一个input-->[Sqrt]-->print_tensor，查看Sqrt的运算结果。发现其中有个值的结果为0，所以应该是计算欧式距离的时候这些0值导致最后计算loss的时候输出为NAN。

解决方法

　　1、去掉tf.sqrt函数

　　2、直接去掉欧式距离

　　3、将欧式距离换成标准化欧式距离。标准化欧式距离是针对简单欧式距离缺点而做的一种改进方案。

未完待续

查看全文

相关阅读:
Javascript闭包（转）
Codeigniter 控制器的继承问题
 ThinkPHP3.1 安全快速入门
 怎么在CI中引入外部的JS与CSS呢？
Node.js学习笔记（一）
PHP strstr() 字符串匹配函数
 include和require的区别（转）
【原】把datagridview中的数据保存到txt文档中
 【转】09年.NET面试题
 【转】Developer Express 系列控件使用心得1

原文地址：https://www.cnblogs.com/zymei/p/10686408.html