zoukankan      html  css  js  c++  java
  • 深度学习基础(十二)—— ReLU vs PReLU

    从算法的命名上来说,PReLU 是对 ReLU 的进一步限制,事实上 PReLU(Parametric Rectified Linear Unit),也即 PReLU 是增加了参数修正的 ReLU。

    在功能范畴上,ReLU 、 PReLU 和 sigmoid 、 tanh 函数一样都是作为神经元的激励函数(activation function)。

    1. ReLU 与 PReLU



    注意图中通道的概念,不通的通道对应不同的 $$

    如果 ai=0,那么 PReLU 退化为 ReLU;如果 ai 是一个很小的固定值(如ai=0.01),则 PReLU 退化为 Leaky ReLU(LReLU)。 有实验证明,与 ReLU 相比,LReLU 对最终的结果几乎没什么影响。

    2. 说明

    • PReLU 只增加了极少量的参数,也就意味着网络的计算量以及过拟合的危险性都只增加了一点点。特别的,当不同 channels 使用相同的 ai 时,参数就更少了。

    • BP 更新 ai 时,采用的是带动量的更新方式,如下图:

      Δai:=μΔai+ϵεai

      上式的两个系数分别是动量和学习率。

      需要特别注意的是:更新 ai 时不施加权重衰减(L2正则化),因为这会把 ai 很大程度上 push 到 0。事实上,即使不加正则化,试验中 ai 也很少有超过1的。

    • 整个论文,ai 被初始化为 0.25。

    3. references

    《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》

    深度学习——PReLU激活

  • 相关阅读:
    sublime c/c++ 环境
    sublime编写markdownm
    第八次课程作业
    第七次课程作业
    第六次作业
    第五次课程作业
    Arithmatic项目修改总结
    第四次课程作业
    第三次课程作业
    课程作业二
  • 原文地址:https://www.cnblogs.com/mtcnn/p/9423606.html
Copyright © 2011-2022 走看看