梯度下降法和牛顿法比较（转）

zoukankan html css js c++ java

梯度下降法和牛顿法比较（转）
机器学习中梯度下降法和牛顿法的比较
在机器学习的优化问题中，梯度下降法和牛顿法是常用的两种凸函数求极值的方法，他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中，一般用改良的梯度下降法，也可以用牛顿法。由于两种方法有些相似，我特地拿来简单地对比一下。下面的内容需要读者之前熟悉两种算法。

梯度下降法

梯度下降法用来求解目标函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为：

可以看出，梯度下降法更新参数的方式为目标函数在当前参数取值下的梯度值，前面再加上一个步长控制参数alpha。梯度下降法通常用一个三维图来展示，迭代过程就好像在不断地下坡，最终到达坡底。为了更形象地理解，也为了和牛顿法比较，这里我用一个二维图来表示：

懒得画图了直接用这个展示一下。在二维图中，梯度就相当于凸函数切线的斜率，横坐标就是每次迭代的参数，纵坐标是目标函数的取值。每次迭代的过程是这样：

首先计算目标函数在当前参数值的斜率（梯度），然后乘以步长因子后带入更新公式，如图点所在位置（极值点右边），此时斜率为正，那么更新参数后参数减小，更接近极小值对应的参数。

如果更新参数后，当前参数值仍然在极值点右边，那么继续上面更新，效果一样。

如果更新参数后，当前参数值到了极值点的左边，然后计算斜率会发现是负的，这样经过再一次更新后就会又向着极值点的方向更新。

根据这个过程我们发现，每一步走的距离在极值点附近非常重要，如果走的步子过大，容易在极值点附近震荡而无法收敛。解决办法：将alpha设定为随着迭代次数而不断减小的变量，但是也不能完全减为零。

牛顿法

首先得明确，牛顿法是为了求解函数值为零的时候变量的取值问题的，具体地，当要求解 f(θ)=0时，如果 f可导，那么可以通过迭代公式

来迭代求得最小值。通过一组图来说明这个过程。

　　　　　　（注意，这个图是求函数值为零的步骤，即在最优化里边相当于求的是一阶导数的那个函数为零的点）

当应用于求解最大似然估计的值时，变成ℓ′(θ)=0的问题。这个与梯度下降不同，梯度下降的目的是直接求解目标函数极小值，而牛顿法则变相地通过求解目标函数一阶导为零的参数值，进而求得目标函数最小值。那么迭代公式写作：

当θ是向量时，牛顿法可以使用下面式子表示：

其中H叫做海森矩阵，其实就是目标函数对参数θ的二阶导数。

通过比较牛顿法和梯度下降法的迭代公式，可以发现两者及其相似。海森矩阵的逆就好比梯度下降法的学习率参数alpha。牛顿法收敛速度相比梯度下降法很快，而且由于海森矩阵的的逆在迭代中不断减小，起到逐渐缩小步长的效果。

牛顿法的缺点就是计算海森矩阵的逆比较困难，消耗时间和计算资源。因此有了拟牛顿法。
转自：http://blog.csdn.net/liuheng0111/article/details/52518690
查看全文

相关阅读:
用vue ui创建的项目怎么关闭eslint校验
 SQL修改表约束实现
 获取微信公众号的粉丝openid以及用openid获取unionID
怎么停掉或关闭运行的npm run dev
.NET解密得到UnionID
微信获取信息发生错误（两个access_token的区别），错误代码：40001，说明：invalid credential, access_token is invalid or not latest hints
微信获取不了用户头像等信息
 微信sdk上传图片大小1k，损坏的问题以及微信上传图片需要的配置
 微信订阅号中获取openid以及个人信息
 Bootstrap中宽度大于指定宽度时有空白的解决方法

原文地址：https://www.cnblogs.com/shixisheng/p/7412943.html