激活函数

zoukankan html css js c++ java

激活函数

1. 什么是激活函数

在神经网络中，我们经常可以看到对于某一个隐藏层的节点，该节点的激活值计算一般分为两步：
（1）输入该节点的值为 $x_{1}, x_{2}$

$x_{1}, x_{2}$

$x_{1}, x_{2}$

2. 常用的激活函数

在深度学习中，常用的激活函数主要有：sigmoid函数，tanh函数，ReLU函数。下面我们将一一介绍。

2.1 sigmoid函数

在逻辑回归中我们介绍过sigmoid函数，该函数是将取值为 $(- \infty, + \infty)$

对于sigmoid函数的求导推导为：

sigmoid函数作为非线性激活函数，但是其并不被经常使用，它具有以下几个缺点：

（1）当 $z$

$z$

　　　　　　对于隐藏层第一个节点进行计算，假设该点实际值为 $a$

$J^{[1]} (W) = \frac{1}{2} (a^{[1]} - a)^{2}$
　　　　　　而激活值 $a^{[1]}$

$a^{[1]}$ $a^{[1]}$ $a^{[1]}$ $\frac{Δ J^{[1]} (W)}{Δ w_{11}} = (a^{[1]} - a) \cdot (a^{[1]})^{'} = (a^{[1]} - a) \cdot g^{'} (z^{[1]}) \cdot x_{1}$ $\frac{Δ J^{[1]} (W)}{Δ w_{11}} = (a^{[1]} - a) \cdot (a^{[1]})^{'} = (a^{[1]} - a) \cdot g^{'} (z^{[1]}) \cdot x_{1}$

$\frac{Δ J^{[1]} (W)}{Δ w_{11}} = (a^{[1]} - a) \cdot (a^{[1]})^{'} = (a^{[1]} - a) \cdot g^{'} (z^{[1]}) \cdot x_{1}$
$a^{[1]}$ $a^{[1]}$
2.2 tanh函数

tanh函数相较于sigmoid函数要常见一些，该函数是将取值为 $(- \infty, + \infty)$ 　　

tanh函数在 $0$

tanh函数的缺点同sigmoid函数的第一个缺点一样，当 $z$

2.3 ReLU函数

ReLU函数又称为修正线性单元（Rectified Linear Unit），是一种分段线性函数，其弥补了sigmoid函数以及tanh函数的梯度消失问题。ReLU函数的公式以及图形如下：

对于ReLU函数的求导为：　　　　　　　　

ReLU函数的优点：

$a^{[1]}$
2.4 Leaky ReLU函数

这是一种对ReLU函数改进的函数，又称为PReLU函数，但其并不常用。其公式与图形如下：　　

其中 $a$ 　　　　　　　　　　

Leaky ReLU函数解决了ReLU函数在输入为负的情况下产生的梯度消失问题。

3. 为什么要用非线性激活函数？

我们以这样一个例子进行理解。
假设下图中的隐藏层使用的为线性激活函数（恒等激活函数），也就是说 $g (z) = z$

于是我们可以得出：

$a^{[1]}$

查看全文

相关阅读:
java常用配置文件头部声明
 Error while launching application Error: spawn ENOMEM 解决
 Maven添加依赖后如何在IDEA中引用
 2017-2018 ACM-ICPC East Central North America Regional Contest (ECNA 2017)部分题解
 最小一乘法的一种数值算法？
LOJ 6409. 「ICPC World Finals 2018」熊猫保护区
 min-max容斥复习
 BMCH
大象
 关于高维卷积的一些不成熟的想法

原文地址：https://www.cnblogs.com/feiyumo/p/9952005.html

1. 什么是激活函数

2. 常用的激活函数

2.1 sigmoid函数

2.2 tanh函数

2.3 ReLU函数

2.4 Leaky ReLU函数

3. 为什么要用非线性激活函数？