【转载】深度学习中softmax交叉熵损失函数的理解

zoukankan html css js c++ java

【转载】深度学习中softmax交叉熵损失函数的理解
深度学习中softmax交叉熵损失函数的理解

2018-08-11 23:49:43 lilong117194 阅读数 5198更多
分类专栏： Deep learning
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/lilong117194/article/details/81542667

1. softmax层的作用

通过神经网络解决多分类问题时，最常用的一种方式就是在最后一层设置n个输出节点，无论在浅层神经网络还是在CNN中都是如此，比如，在AlexNet中最后的输出层有1000个节点，即便是ResNet取消了全连接层，但1000个节点的输出层还在。

一般情况下，最后一个输出层的节点个数与分类任务的目标数相等。
假设最后的节点数为N，那么对于每一个样例，神经网络可以得到一个N维的数组作为输出结果，数组中每一个维度会对应一个类别。在最理想的情况下，如果一个样本属于k，那么这个类别所对应的的输出节点的输出值应该为1，而其他节点的输出都为0，即 $[0, 0, 1, 0, \dots .0, 0]$
$y' = s o f t m a x (y i) = e y i \sum n j = 1 e y$
以上可以看出： $\sum y^{'} = 1$
2. 交叉熵损失函数的数学原理

上面说过实际的期望输出，也就是标签是 $[0, 0, 1, 0, \dots .0, 0]$

交叉熵刻画的是实际输出（概率）与期望输出（概率）的距离，也就是交叉熵的值越小，两个概率分布就越接近。假设概率分布p为期望输出(标签)，概率分布q为实际输出，H(p,q)为交叉熵。

第一种交叉熵损失函数的形式：
$H (p, q) = - \sum x p (x) l o g q (x)$

举个例子：
假设N=3，期望输出为p=(1,0,0)，实际输出 $q_{1} = (0.5, 0.2, 0.3) ， q_{2} = (0.8, 0.1, 0.1)$

第二种交叉熵损失函数形式：
$H (p, q) = - \sum x (p (x) l o g q (x) + (1 - p (x)) l o g (1 - q (x)))$
下面简单推到其过程：
我们知道，在二分类问题模型：例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等，真实样本的标签为 [0，1]，分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数，输出一个概率值，这个概率值反映了预测为正类的可能性：概率越大，可能性越大。
Sigmoid 函数的表达式和图形如下所示： $g (s) = \frac{1}{1 + e^{- s}}$

而在实际的使用训练过程中，数据往往是组合成为一个batch来使用，所以对用的神经网络的输出应该是一个m*n的二维矩阵，其中m为batch的个数，n为分类数目，而对应的Label也是一个二维矩阵，还是拿上面的数据，组合成一个batch=2的矩阵
$q = [0.5 0.8 0.2 0.1 0.3 0.1]$ $\sum y^{'} = 1$ $p = [1 1 0 0 0 0]$ $\sum y^{'} = 1$ $H (p, q) = [0.3 0.1]$ $\sum y^{'} = 1$
3. 在TensorFlow中实现交叉熵

在TensorFlow可以采用这种形式：

cross_entropy = -tf.reduce_mean(y_ * tf.log(tf.clip_by_value(y, 1e-10, 1.0)))

1

其中y_表示期望的输出，y表示实际的输出（概率值），*为矩阵元素间相乘，而不是矩阵乘。
并且通过tf.clip_by_value函数可以将一个张量中的数值限制在一个范围之内，这样可以避免一些运算错误（比如log0是无效的），tf.clip_by_value函数是为了限制输出的大小，为了避免log0为负无穷的情况，将输出的值限定在(1e-10, 1.0)之间，其实1.0的限制是没有意义的，因为概率怎么会超过1呢。比如：

import tensorflow as tf v=tf.constant([[1.0,2.0,3.0],[4.0,5.0,6.0]]) with tf.Session() as sess: print(tf.clip_by_value(v,2.5,4.5).eval(session=sess))

1

2

3

4

5

结果：

[[2.5 2.5 3. ] [4. 4.5 4.5]]

1

2

上述代码实现了第一种形式的交叉熵计算，需要说明的是，计算的过程其实和上面提到的公式有些区别，按照上面的步骤，平均交叉熵应该是先计算batch中每一个样本的交叉熵后取平均计算得到的，而利用tf.reduce_mean函数其实计算的是整个矩阵的平均值，这样做的结果会有差异，但是并不改变实际意义。

import tensorflow as tf v=tf.constant([[1.0,2.0,3.0],[4.0,5.0,6.0]]) with tf.Session() as sess: # 输出3.5 print(tf.reduce_mean(v).eval())

1

2

3

4

5

6

由于在神经网络中，交叉熵常常与Sorfmax函数组合使用，所以TensorFlow对其进行了封装，即：

cross_entropy = tf.nn.sorfmax_cross_entropy_with_logits(y_ ,y)

1

与第一个代码的区别在于，这里的y用神经网络最后一层的原始输出就好了,而不是经过softmax层的概率值。

参考：https://blog.csdn.net/red_stone1/article/details/80735068
https://blog.csdn.net/chaipp0607/article/details/73392175
查看全文

相关阅读:
不要试图给Password类型的TextBox赋值!
asp.net与javacript之间的通讯
 这个iframe有点奇怪
 C＃的异常处理机制（转载）
公匙算法.电子签名
 西煞魄工厂的入门教程
 Web services and SOAP
观察者模式
 WebService：使用 Soap 标头自定义身份验证和授权（转载）
社会型网络（3）－回到现实（转载）

原文地址：https://www.cnblogs.com/runsdeep/p/11628430.html

【转载】深度学习中softmax交叉熵损失函数的理解

深度学习中softmax交叉熵损失函数的理解

1. softmax层的作用

2. 交叉熵损失函数的数学原理

3. 在TensorFlow中实现交叉熵