zoukankan      html  css  js  c++  java
  • 提前终止法与正则化法之间关系

    前言


    前两篇博客(从贝叶斯角度理解正则化正则化)分别介绍了提前终止法和正则化法。

    Snipaste_2019-11-19_18-36-48.png

    它们可以近似等价的吗?怎么近似等价?

    20191109213126.png

    左边这张图轮廓线表示负对数似然函数的轮廓,虚线表示从原点开始的SGD所经过的轨迹。提前终止法的轨迹在较早的$ ilde omega (点终止,而不是在停止在最小化代价的点){omega ^{ ext{*}}}$处;
    右边这张图使用了L2正则化法。虚线圆圈表示L2惩罚的轮廓,L2惩罚使得总代价的最小值比非正则化代价的最小值更靠近原点。
    可以看出,两种方法近似等价。

    接下来对两者进行分析。

    提前终止法分析


    新文档 2019-11-09 17.19.43.jpg

    对于上图所示的单层线性网络,该线性网络的均方误差性能函数时二次的,即:

    (F(x) = c + d^{T}x + frac{1}{2}x^{T} ext{Ax})

    其中,为Hessian矩阵。

    ① 为了研究提前终止法性能,我们将分析最速下降法在线性网络上的演化。由式10.16知性能指标的梯度:

    ( abla F(x) = Ax + d)

    最速下降法:

    (x_{k + 1} = x_{k} - alpha g_{k} = x_{k} - alpha(Ax_{k} + d))

    对于二次性能指标,极小值出现在下面的点:

    (x^{ ext{ML}} = - A^{- 1}d)

    上标ML表示结果使似然函数极大化同时使误差平方和极小化。则

    [{x_{k + 1} = x_{k} - alpha(Ax_{k} + d)}\{ ext{}= x_{k} - alpha A(x_{k} + A^{- 1}d)}\{ ext{} = x_{k} - alpha A(x_{k} + x^{ ext{ML}})}\{ ext{} = leftlbrack I - ext{αA} ight brack x_{k} + alpha Ax^{ ext{ML}}}\{ ext{} = Mx_{k} + leftlbrack I - M ight brack Ax^{ ext{ML}}} ]

    其中,(M = (I - alpha A))

    ② 将(x_{k + 1})与初始化权值(x_{k})进行关联

    (x_{1} = Mx_{0} + leftlbrack I - M ight brack x^{ ext{ML}})

    [{x_{2} = Mx_{1} + leftlbrack I - M ight brack x^{ ext{ML}}}\{ ext{} = M(Mx_{0} + leftlbrack I - M ight brack x^{ ext{ML}}) + leftlbrack I - M ight brack x^{ ext{ML}}}\{ ext{} = M^{2}x_{0} + leftlbrack I - M^{2} ight brack x^{ ext{ML}}} ]

    递推可以得

    (x_{k}mspace{6mu} = M^{k}x_{0} + leftlbrack I - M^{k} ight brack x^{ ext{ML}})

    贝叶斯正则化法分析

    在误差平方和上加上一个惩罚项作为正则化性能指标,即:

    [F(x) = eta E_{D} + alpha E_{W} ]

    等价的性能指标:

    (F^{*}(x) = frac{F(x)}{eta} = E_{D} + frac{alpha}{eta}E_{W} = E_{D} + ho E_{W})上式只有一个正则化参数。

    权值平方和惩罚项(E_{W})可以写为:

    (E_{W} = (x - x_{0})^{T}(x - x_{0}))

    其梯度为( abla E_{W} = 2(x - x_{0}))

    误差平方和的梯度:( abla E_{D} = Ax + d = A(x + A^{- 1}d) = A(x - x^{ ext{ML}}))

    为了寻找正则化性能指标的极小值,同时也是最可能的值(x^{ ext{MP}}),令梯度为零。

    ( abla F^{*}(x) = abla E_{D} + ho abla E_{W} = A(x^{ ext{MP}} - x^{ ext{ML}}) + 2 ho(x^{ ext{MP}} - x_{0}) = 0)

    化简:((A + 2 ho I)(x^{ ext{MP}} - x^{ ext{ML}}) = 2 ho(x_{0} - x^{ ext{ML}}))

    求解(x^{ ext{MP}} - x^{ ext{ML}}),有

    ((x^{ ext{MP}} - x^{ ext{ML}}) = 2 ho(A + 2 ho I)^{- 1}(x_{0} - x^{ ext{ML}}))

    移项:

    [{x^{ ext{MP}} = 2 ho(A + 2 ho I)^{- 1}(x_{0} - x^{ ext{ML}}) + x^{ ext{ML}}}\{ ext{} = M_{P}(x_{0} - x^{ ext{ML}}) + x^{ ext{ML}}ackslash n} ]

    其中,(M_{P} = 2 ho(A + 2 ho I)^{- 1})

    比较


    提前终止法的结果表明从初始值到k次迭代后的最大似然权值我们进步了多少;
    正则化法描述了正则化解与误差平方和极小值之间关系。

    Snipaste_2019-11-19_18-38-43.png

    两个解等价({leftrightarrow x}_{k} = x^{ ext{MP}}) ({leftrightarrow M}^{k} = M_{P})

    (M)(A) 具有相同的特征向量,(A)的特征值为(lambda_{i})(M)则的特征值为(1 - alphalambda_{i})

    ,则(M^{k})的特征值为(eig(M^{k}) = (1 - alphalambda_{i})^{k})

    同理,可得(M_{P})的特征值为(eig(M_{P}) = frac{2 ho}{lambda_{i} + 2 ho})

    因此,(M^{k} = M_{P})等价于

    [eig(M^{k}) = (1 - alphalambda_{i})^{k} = frac{2 ho}{lambda_{i} + 2 ho} = eig(M_{P}) ]

    取对数,有:

    (klog(1 - alphalambda_{i}) = - log(1 + frac{lambda_{i}}{2 ho}))

    为使上式成立,则(lambda_{i} = 0)

    对等式两边求导,有:

    (- frac{1}{(1 + frac{lambda_{i}}{2 ho})}frac{1}{2 ho} = frac{k}{1 - alphalambda_{i}}( - alpha))

    (alphalambda_{i})很小(缓慢、稳定的学习)且(frac{lambda_{i}}{2 ho})很小,则有近似结果:

    ( ext{αk} cong frac{1}{2 ho})

    因此,提前终止法和正则化法近似相等。增加迭代次数(k)近似于减少正则化参数( ho)。可以直观看出,增加迭代次数或者减少正则化参数都能够引起过拟合。

    参考资料


    1.尹恩·古德费洛.深度学习[M].北京:人民邮电出版社,2017.8

    2.马丁 T·哈根,章毅(译).神经网络设计[M].北京:机械出版社,2017.12

  • 相关阅读:
    进入用友通:提示"由于文件不可访问,内存磁盘空间不足无法打开ufsystem数据库"...
    HDOJ 1069 Monkey and Banana
    HDOJ 1087 Super Jumping! Jumping! Jumping!
    HDOJ 1209 Clock
    CodeForces Round #185 (Div. 2)A,B,C
    HDOJ 1465 不容易系列之一
    HDOJ 1114 PiggyBank
    HDOJ 1280 前m大的数
    HDOJ 1495 非常可乐
    HDOJ 1284 钱币兑换问题
  • 原文地址:https://www.cnblogs.com/sc340/p/11891700.html
Copyright © 2011-2022 走看看