zoukankan      html  css  js  c++  java
  • 梯度检验与高级优化

    众所周知,反向传播算法很难调试得到正确结果,尤其是当程序存在很多难于发现的bug时。距离来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练,再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果(但实际上比正确代码的结果要差)。因此,但从计算结果上来看,我们很难发现代码中有什么东西遗漏了。本节中,我们将介绍一种对求导结果进行数值检验的方法,该方法可以验证求导代码是否正确。另外,使用本节所述求导检验方法,可以帮助你提升写正确代码的信心。

    缺位错误(Off-by-one error)举例说明:比如 	extstyle for 循环中循环 	extstyle m次,正确应该是 	extstyle for (i=1;~i<=m;~i++),但有时程序员疏忽,会写成 	extstyle for (i=1;~i<m;~i++),这就是缺位错误

    假设我们想要最小化以	extstyle 	heta 为自变量的目标函数	extstyle J(	heta)

    假设 	extstyle J : Re mapsto Re,则 	extstyle 	heta in Re。在一维的情况下,一次迭代的梯度下降公式是

    egin{align}
	heta := 	heta - alpha frac{d}{d	heta}J(	heta).
end{align}

    再假设我们已经使用代码实现了计算	extstyle frac{d}{d	heta}J(	heta)的函数	extstyle g(	heta),接着我们使用	extstyle 	heta := 	heta - alpha g(	heta) 来实现梯度下降算法。那么我们如何检验 	extstyle g 的实现是否正确呢?

    回忆导数的数学定义:

    egin{align}
frac{d}{d	heta}J(	heta) = lim_{epsilon 
ightarrow 0}
frac{J(	heta+ epsilon) - J(	heta-epsilon)}{2 epsilon}.
end{align}

    那么对于任意 	extstyle 	heta 值,我们都可以对等式左边的导数用:

    egin{align}
frac{J(	heta+{
m EPSILON}) - J(	heta-{
m EPSILON})}{2 	imes {
m EPSILON}}
end{align}

    来近似。

    实际应用中,我们常将 	extstyle EPSILON 设为一个很小的常量,比如在	extstyle 10^{-4} 数量级(虽然 	extstyle EPSILON 的取值范围可以很大,但是我们不会将它设得太小,比如 	extstyle 10^{-20},因为那将导致数值舍入误差。)

    给定一个被认为能计算 	extstyle frac{d}{d	heta}J(	heta) 的函数	extstyle g(	heta),我们可以用下面的数值检验公式

    egin{align}
g(	heta) approx
frac{J(	heta+{
m EPSILON}) - J(	heta-{
m EPSILON})}{2 	imes {
m EPSILON}}.
end{align}

    计算两端是否一样检验函数是否正确

     上式两端值的接近程度取决于 	extstyle J 的具体形式。但是在假定	extstyle {
m EPSILON} = 10^{-4} 的情况下,你通常会发现上式左右两端至少有4位有效数字是一样的(通常会更多)。

     现在,考虑考虑 	extstyle 	heta in Re^n 是一个向量而非一个实数(那么就有	extstyle n个参数要学习得到),并且 	extstyle J: Re^n mapsto Re。在神经网络的例子里我们使用	extstyle J(W,b),可以想象为把参数W,b组合扩展成一个长向量θ,现在我们将求导检验方法推广到一般化,即θ是一个向量的情况。

    设我们有一个用于计算 	extstyle frac{partial}{partial 	heta_i} J(	heta)的函数 	extstyle g_i(	heta);我们想要检验 	extstyle g_i 是否输出正确的求导结果。我们定义 	extstyle 	heta^{(i+)} = 	heta +
{
m EPSILON} 	imes vec{e}_i,其中

    egin{align}
vec{e}_i = egin{bmatrix}0 \ 0 \ vdots \ 1 \ vdots \ 0end{bmatrix}
end{align}

    是第 	extstyle i 个基向量(维度和 	extstyle 	heta 相同,在第 	extstyle i 行是“	extstyle 1”而其他行是“	extstyle 0”)。所以,	extstyle 	heta^{(i+)}	extstyle 	heta 几乎相同,除了第 	extstyle i 行元素增加了 	extstyle EPSILON。类似地,	extstyle 	heta^{(i-)} = 	heta - {
m EPSILON} 	imes vec{e}_i 得到的第 	extstyle i 行减小了 	extstyle EPSILON。然后我们可以对每个 	extstyle i 检查下式是否成立,进而验证 	extstyle g_i(	heta) 的正确性:

     egin{align}
g_i(	heta) approx
frac{J(	heta^{(i+)}) - J(	heta^{(i-)})}{2 	imes {
m EPSILON}}.
end{align}

     当用反射传播算法求解神经网络时,正确算法实现会得到:

     egin{align}

abla_{W^{(l)}} J(W,b) &= left( frac{1}{m} Delta W^{(l)} 
ight) + lambda W^{(l)} \

abla_{b^{(l)}} J(W,b) &= frac{1}{m} Delta b^{(l)}.
end{align}

     以上结果与反向传播算法中的最后一段伪代码一致,都是计算梯度下降。为了验证梯度下降代码的正确性,使用上述数值检验方法计算 	extstyle J(W,b) 的导数,然后验证 	extstyle left(frac{1}{m}Delta W^{(l)} 
ight) + lambda W	extstyle frac{1}{m}Delta b^{(l)} 是否能够给出正确的求导结果。

     迄今为止,我们的讨论都集中在使用梯度下降法来最小化	extstyle J(	heta)。如果你已经实现了一个计算 	extstyle J(	heta)	extstyle 
abla_	heta J(	heta) 的函数,那么其实还有更精妙的算法来最小化	extstyle J(	heta)

    举例来说,可以想象这样一个算法:它使用梯度下降,并能够自动调整学习速率	extstyle alpha,以得到合适的步长值,最终使	extstyle 	heta能够快速收敛到一个局部最优解。

    还有更妙的算法:比如可以寻找一个Hessian矩阵的近似,得到最佳步长值,使用该步长值能够更快地收敛到局部最优(和牛顿法类似)。

    使用这些高级优化算法时,你需要提供关键的函数:即对于任一个	extstyle 	heta,需要你计算出	extstyle J(	heta)	extstyle 
abla_	heta J(	heta)。之后,这些优化算法会自动调整学习速率/步长值	extstyle alpha 的大小(并计算Hessian近似矩阵等等)来自动寻找	extstyle J(	heta) 最小化时	extstyle 	heta 的值。诸如L-BFGS和共轭梯度算法通常比梯度下降法快很多。

    中英文对照:

    off-by-one error 缺位错误

    bias term 偏置项

    numerically checking 数值检验

    numerical roungoff errors 数值舍入误差

    significant digits 有效数字

    unrolling 组合扩展

    learning rate 学习速率

    Hessian matrix Hessian矩阵

    Newton's method 牛顿法

    conjugate gradient 共轭梯度

    step-size步长

    转自:

     http://deeplearning.stanford.edu/wiki/index.php/%E6%A2%AF%E5%BA%A6%E6%A3%80%E9%AA%8C%E4%B8%8E%E9%AB%98%E7%BA%A7%E4%BC%98%E5%8C%96

  • 相关阅读:
    flash as3笔记1
    C# api 得到机器名
    Windows命令行 命令大全
    Adobe SVG View 动态修改src的问题
    onekeyghost 备份系统
    WCF寄存于Windows服务,通过Form进行调用
    RDLC报表自定义数据集
    电气工程图形符号
    解决Extjs TextField回车事件后刷新页面问题
    C# Windows服务自动安装与注册
  • 原文地址:https://www.cnblogs.com/rong86/p/3518513.html
Copyright © 2011-2022 走看看