zoukankan      html  css  js  c++  java
  • 【dlbook】正则化

    对学习算法的修改——旨在减少泛化误差而不是训练误差

    显著减少方差而不过度增加偏差。

    【参数范数惩罚】

    通常只对权重做惩罚而不对偏置做惩罚,原因是拟合偏置比拟合权重容易很多。

    不同层使用不同惩罚的代价很大,会在所有层使用相同的权重衰减。

    L2正则化的效果: 在Hessian阵特征值较大的方向,正则化的影响比较小,在特征值比较小的方向,会比较快速的趋近到0

      让算法感知到较高方差的x,从而与

    L1正则化的效果:

      参数向一个方向移动一个特定的距离,如果移动之后变号,那么置为0。

      会产生稀疏解

    【欠约束问题】

    对矩阵XTX求逆,只要奇异就会出问题,现实数据中只要在某些方向没有差异,或者在一些方向没有观察到方差,矩阵就是奇异的。

    (通常在我们的数据中不会发生)

    【噪声稳定性】

    bishop 1995: 对x添加方差极小的噪声等价于对权重进行范数惩罚

    在一般情况下,注入噪声远比简单的收缩参数强大,尤其是添加到隐藏单元!

    另外一种方式是对循环神经网络的权重加噪声,实际上是基于贝叶斯思想。

    【early stop】

    代价:

    1、需要多次评估validation集

    2、需要保存最佳参数副本

    正则化效果:

    将参数空间控制在初始值的小邻域内,如果初始值足够小,那么是有效的。

    比weight decay更有效

    【稀疏表示】

    【Bagging】

    【Dropout】

    可以认为是廉价的Bagging, 

    小批量、小步长的学习算法,

    还需要继续学习。。。

  • 相关阅读:
    AC自动机模板
    输入输出外挂(整数)
    前同事通过接私活年入60W,他常用19个私活平台汇总!
    通用分页存储过程
    单品流向
    口令对照表
    连接字符串大全
    各搜索引擎登记入口
    moto手机软件收集
    resin在线客户系统
  • 原文地址:https://www.cnblogs.com/yesuuu/p/8391907.html
Copyright © 2011-2022 走看看