zoukankan      html  css  js  c++  java
  • 神经网络中的梯度消失和梯度爆炸问题

    深度神经网络中当网络层数过多时会出现一些问题,例如梯度消失(gradient vanishing problem)和梯度爆炸(gradient exploding problem)问题。网络中前层的梯度计算是来自于后面层上梯度的乘积,当存在过多的层次时,就出现了内在本质上的不稳定场景。

    神经网络中的激活函数通常使用sigmoid函数

    可以看出sigmoid的导数(sigma'left(x ight))最大值为(frac{1}{4}),而初始化的网络权值|w|通常都小于1,因此(|sigma'left(z ight)w|leqfrac{1}{4}),因此对于上面的链式求导,层数越多,求导结果(frac{partial C}{partial b_1})越小,因而导致梯度消失的情况出现。梯度爆炸问题的出现原因即(|sigma'left(z ight)w|>1),也就是w比较大的情况。

    实际上,梯度爆炸和梯度消失问题都是因为网络太深,网络权值更新不稳定造成的,本质上是因为梯度反向传播中的

  • 相关阅读:
    Java SE——线程介绍
    Vue
    Spring asm
    spring 自定义标签的实现
    Spring InitializingBean 接口以及Aware接口实现的原理
    值传递与引用传递
    redis学习
    ssm多数据源配置
    redis 启动
    json的设置
  • 原文地址:https://www.cnblogs.com/liuxgblog/p/14674775.html
Copyright © 2011-2022 走看看