PReLU - 走看看

zoukankan html css js c++ java

PReLU

　　PReLU全名Parametric Rectified Linear Unit. PReLU-nets在ImageNet 2012分类数据集top-5上取得了4.94%的错误率，首次超越了人工分类的错误率（5.1%）。PReLU增加的计算量和过拟合的风险几乎为零。考虑了非线性因素的健壮初始化方法使得该方法可以训练很深很深的修正模型（rectified model）来研究更深更大的网络结构。

　　ReLU和PReLU图像：

　　PReLU的数学表达式（i代表不同的通道，即每一个通道都有参数不相同的PReLU函数）：

　　如果a_i是一个很小且确定的值时，PReLU就变成了LReLU。LReLU的目的是为了避免梯度为零提出来的。实验表明，LReLU在精确度上与ReLU相差无几。然而，PReLU是通过在训练中自学习参数ai的。PReLU只引进了n（n为通道数量）个参数，这和整个模型的权重数量比起来是微不足道的。因此我们预料这不会增加过拟合的风险。作者也考虑了通道共享的参数，即所有通道的ai都相等，这样就只引进了一个参数。

PReLU可以通过反向传播算法来更新参数。a_i的梯度为：

其中μ是动量，e代表学习速率，ε代表目标函数，a_i初始值为0.25。值得注意的是，不使用权重衰减（L2正则化）来更新a_i，因为这会使得a_i趋向于0，变为ReLU。即使没有正则化，a_i在实验中也没有超过1。作者没有限制a_i的范围，因此激活函数可能是非单调的。

　　当参数为通道共享时，a 的梯度为：

，其中∑_i 表示该层所有通道相加。

参考论文：【1】Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

查看全文

相关阅读:
maven 父子模块保持相同
 Maven deploy时排除指定的某个module
源码，反码，补码
 Java日志之Slf4j，Log4J，logback原理总结
 Git Bash设置代理
 分享2个分布式锁
 二叉树的遍历记忆方法
 MySQL百万级数据分页查询及优化
 eclipse无法访问sun.misc.Unsafe类的解决办法
 Spring学习日志之纯Java配置的MVC框架搭建

原文地址：https://www.cnblogs.com/catpainter/p/8406285.html