在神经网络中weight decay

zoukankan html css js c++ java

在神经网络中weight decay

weight decay（权值衰减）的最终目的是防止过拟合。在损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。

momentum是梯度下降法中一种常用的加速技术。对于一般的SGD，其表达式为 $x leftarrow x-alpha ast dx$ , $x$ 沿负梯度方向下降。而带momentum项的SGD则写生如下形式：
$v=eta ast v -aast dx\$
$x leftarrow x+v$
其中 $eta$ 即momentum系数，通俗的理解上面式子就是，如果上一次的momentum（即 $v$ ）与这一次的负梯度方向是相同的，那这次下降的幅度就会加大，所以这样做能够达到加速收敛的过程。
三、normalization。如果我没有理解错的话，题主的意思应该是batch normalization吧。batch normalization的是指在神经网络中激活函数的前面，将 $wx+b$ 按照特征进行normalization，这样做的好处有三点：
1、提高梯度在网络中的流动。Normalization能够使特征全部缩放到[0,1]，这样在反向传播时候的梯度都是在1左右，避免了梯度消失现象。
2、提升学习速率。归一化后的数据能够快速的达到收敛。
3、减少模型训练对初始化的依赖。

作者：陈永志
链接：https://www.zhihu.com/question/24529483/answer/114711446
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

查看全文

相关阅读:
Entity Framework 数据并发访问错误原因分析与系统架构优化
 项目中如何使用EF
Entity Framework版本历史概览
 Entity Framework 6 预热、启动优化
 jQuery EasyUI Datagrid性能优化专题(转)
jQuery EasyUI Datagrid VirtualScrollView视图简单分析
 用JS判断IE版本的代码
 【转】编写高质量代码改善C#程序的157个建议——建议56：使用继承ISerializable接口更灵活地控制序列化过程
 【转】编写高质量代码改善C#程序的157个建议——建议55：利用定制特性减少可序列化的字段
 【转】编写高质量代码改善C#程序的157个建议——建议54：为无用字段标注不可序列化

原文地址：https://www.cnblogs.com/mdumpling/p/8625912.html