谈谈激活函数以零为中心的问题

zoukankan html css js c++ java

谈谈激活函数以零为中心的问题
转自: https://liam0205.me/2018/04/17/zero-centered-active-function/

今天在讨论神经网络中的激活函数时，陆同学提出 Sigmoid 函数的输出不是以零为中心的（non-zero-centered），这会导致神经网络收敛较慢。关于这一点，过去我只是将其记下，却并未理解背后的原因。此篇谈谈背后的原因。

神经元

图片来自：https://zhuanlan.zhihu.com/p/25110450

如图是神经网络中一个典型的神经元设计，它完全仿照人类大脑中神经元之间传递数据的模式设计。大脑中，神经元通过若干树突（dendrite）的突触（synapse），接受其他神经元的轴突（axon）或树突传递来的消息，而后经过处理再由轴突输出。

在这里，诸

Sigmoid 与 tanh

此篇集中讨论激活函数输出是否以零为中心的问题，因而不对激活函数做过多的介绍，而只讨论 Sigmoid 与 tanh 两个激活函数。

Sigmoid 函数

Sigmoid 函数的一般形式是

$σ (x; a) = \frac{1}{1 + e^{- a x}} .$

这里，参数

Sigmoid 函数的导数很好求

$σ^{'} (x) = σ (x) (1 - σ (x)) .$

图片来自：https://zhuanlan.zhihu.com/p/25110450

tanh 函数

tanh 函数全称 Hyperbolic Tangent，即双曲正切函数。它的表达式是

$\tanh (x) = 2 σ (2 x) - 1 = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}} .$

双曲正切函数的导数也很好求

$\tanh^{'} (x) = 1 - \tanh^{2} (x) .$

图片来自：https://zhuanlan.zhihu.com/p/25110450

一些性质

Sigmoid 和 tanh 两个函数非常相似，具有不少相同的性质。简单罗列如下
- 优点：平滑
- 优点：易于求导
- 缺点：幂运算相对耗时
- 缺点：导数值小于
对于 Sigmoid 函数来说，它的值域是
- 优点：可以作为概率，辅助模型解释
- 缺点：输出值不以零为中心，可能导致模型收敛速度慢
此篇重点讲 Sigmoid 函数输出值不以零为中心的这一缺点。

收敛速度

这里首先需要给收敛速度做一个诠释。模型的最优解即是模型参数的最优解。通过逐轮迭代，模型参数会被更新到接近其最优解。这一过程中，迭代轮次多，则我们说模型收敛速度慢；反之，迭代轮次少，则我们说模型收敛速度快。

参数更新

深度学习一般的学习方法是反向传播。简单来说，就是通过链式法则，求解全局损失函数

$w \leftarrow w - η \cdot \frac{\partial L}{\partial w} .$

考虑学习率

$f (\vec{x}; \vec{w}, b) = f (\sum_{i} w_{i} x_{i} + b) .$

因此，对于参数

$\frac{\partial L}{\partial w_{i}} = \frac{\partial L}{\partial f} \frac{\partial f}{\partial w_{i}} = x_{i} \cdot \frac{\partial L}{\partial f} .$

因此，参数的更新步骤变为

$w_{i} \leftarrow w_{i} - η x_{i} \cdot \frac{\partial L}{\partial f} .$

更新方向

又考虑到

以零为中心的影响

至此，为了描述方便，我们以二维的情况为例。亦即，神经元描述为

$f (\vec{x}; \vec{w}, b) = f (w_{0} x_{0} + w_{1} x_{1} + b) .$

现在假设，参数

${\begin{cases} w_{0} < w_{0}^{*}, \\ w_{1} ⩾ w_{1}^{*} . \end{cases}$

这也就是说，我们希望

但在 Sigmoid 函数中，输出值恒为正。这也就是说，如果上一级神经元采用 Sigmoid 函数作为激活函数，那么我们无法做到 。此时，模型为了收敛，不得不向逆风前行的风助力帆船一样，走 Z 字形逼近最优解。

如图，模型参数走绿色箭头能够最快收敛，但由于输入值的符号总是为正，所以模型参数可能走类似红色折线的箭头。如此一来，使用 Sigmoid 函数作为激活函数的神经网络，收敛速度就会慢上不少了。
查看全文

相关阅读:
2013年第四届蓝桥杯C/C++ A组国赛 —— 第三题：埃及分数
 单链表————链表
 单链表————顺序表
 跳水板
 平衡二叉搜索树（最小高度树）
删除字符串中的所有相邻重复项
 用两个栈实现队列
 删除最外层的括号
 合并两个有序链表
 C++ cout格式化输出（输出格式）完全攻略

原文地址：https://www.cnblogs.com/ying-chease/p/9492849.html

谈谈激活函数以零为中心的问题

神经元

Sigmoid 与 tanh

Sigmoid 函数

tanh 函数

一些性质

收敛速度

参数更新

更新方向

以零为中心的影响