深度学习基础（十二）—— ReLU vs PReLU - 走看看

zoukankan html css js c++ java

深度学习基础（十二）—— ReLU vs PReLU
从算法的命名上来说，PReLU 是对 ReLU 的进一步限制，事实上 PReLU（Parametric Rectified Linear Unit），也即 PReLU 是增加了参数修正的 ReLU。

在功能范畴上，ReLU 、 PReLU 和 sigmoid 、 tanh 函数一样都是作为神经元的激励函数（activation function）。

1. ReLU 与 PReLU

注意图中通道的概念，不通的通道对应不同的 $$

如果 ai=0，那么 PReLU 退化为 ReLU；如果 ai 是一个很小的固定值（如ai=0.01），则 PReLU 退化为 Leaky ReLU（LReLU）。有实验证明，与 ReLU 相比，LReLU 对最终的结果几乎没什么影响。

2. 说明
- PReLU 只增加了极少量的参数，也就意味着网络的计算量以及过拟合的危险性都只增加了一点点。特别的，当不同 channels 使用相同的 ai 时，参数就更少了。
- BP 更新 ai 时，采用的是带动量的更新方式，如下图：
  
  $Δ a i : = μ Δ a i + ϵ \partial ε \partial a i$
  
  上式的两个系数分别是动量和学习率。
  
  需要特别注意的是：更新 ai 时不施加权重衰减（L2正则化），因为这会把 ai 很大程度上 push 到 0。事实上，即使不加正则化，试验中 ai 也很少有超过1的。
- 整个论文，ai 被初始化为 0.25。
3. references

《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》

深度学习——PReLU激活
查看全文

相关阅读:
【老孙随笔】项目经理要如何看待技术？
从菜鸟到CTO——你的目标需要管理
 FormatX源代码格式化插件V2.0版
 JavaScript面向对象之静态与非静态类
 FormatX源代码格式化插件
 正确捕获 WCF服务调用中发生的异常及处理技巧
 2010，应该感谢的那些人以及那些未完成的事
 使用IErrorHandle对WCF服务器进行异常处理
 代码重构之路的艰辛
 从读取Excel文件引申出的问题(上)

原文地址：https://www.cnblogs.com/mtcnn/p/9423606.html

Copyright © 2011-2022 走看看