梯度下降小结

zoukankan html css js c++ java

梯度下降小结

机器学习中，很多监督学习模型需要构建损失函数，再用优化算法对损失函数进行优化，找到最优参数。常用到的优化算法有梯度下降法和最小二乘法，这里总结梯度下降法。

1 梯度下降原理

梯度下降在求解过程中，只需要求解损失函数的一阶导数，计算代价较小。基本思想：从某一点出发，沿着变化最快的方向前进，到达一个点后，再找下一个变化最快的地方，直到到达收敛点。
介绍梯度下降前，需要了解以下数学概念。

1.1 梯度下降必备数学基础

导数——简单来说，导数就是函数(y=f(x))在某一点(((x_{0},y_{0})))切线的斜率，记作(f'{(x_{0})})或(frac{mathrm{d} y}{mathrm{d} x}|x=x_{0})。
偏导数——在某一点(((x_{0},y_{0})))处的偏导数的几何意义是曲面(f(x,y))与面(x=x_{0})或面(y=y_{0})交线在(y=y_{0})或(x=x_{0})处切线的斜率，记作(f_{x}(x_{0},y_{0}))或(frac{partial f}{partial x})，(frac{partial f}{partial y})。
方向导数——简单来说，方向导数就是函数沿着某个方向的变化率。
梯度：函数(f(x,y))在平面域内具有连续的一阶偏导数，对于每一个点(P(x,y))都有向量((frac{partial f}{partial x},frac{partial f}{partial y}))，则将其称为函数在点(P)的梯度，记作(igtriangledown f(x,y))。
梯度向量的几何意义就是函数变化最快的地方，沿着梯度向量的方向，更容易找到最大值，而沿着梯度方向相反的方向，更易找到函数的最小值。

1.2 梯度下降

机器学习算法中，用梯度下降法迭代求解，使得损失函数最小化、得到模型参数。如果需要求解损失函数最大值，就需要梯度上升法迭代。实际，梯度下降法和梯度上升法可以相互转换，下面详细介绍梯度下降法。

2 梯度下降算法

以线性回归模型为例，设一个特征(x)与参数( heta _{0})，( heta _{1})，得到假设函数为：(h_{ heta }(x^{(i)})= heta _{0}+ heta _{1}x^{(i)}) 损失函数：(J( heta _{0}, heta _{1})=frac{1}{2m}sum_{i=1}^{m}(h_{ heta }(x^{(i)})-y^{(i)})^{2}) 优化目标： (min_{ heta_{0} , heta _{1}}J( heta _{0}, heta _{1}))
梯度下降算法，同步更新所有参数( heta)：

[ heta_{j}:= heta_{j}-alpha frac{partial }{partial heta _{j}}J( heta _{0}, heta _{1}) ]
简单地说，梯度下降目的如下图，就是找到损失函数(J( heta _{0}, heta _{1}))的最小值。

梯度下降有三种形式：批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）和小批量梯度下降（Mini-Batch Gradient Descent），下面分别介绍三种梯度下降算法。

3 批量梯度下降

批量梯度下降是梯度下降最原始的形式，每一次迭代使用全部样本进行梯度更新，具体理解为，对目标函数求偏导

[frac{partial J( heta _{0}, heta _{1})}{partial heta _{j}}=frac{1}{m}sum_{i=1}^{m}(h_{ heta }(x^{(i)})-y^{(i)})x_{j}^{(i)} ]
每次迭代对参数进行更新：

[ heta _{j}:= heta _{j}-alpha frac{partial J( heta _{0}, heta _{1})}{partial heta _{j}}= heta _{j}-alphafrac{1}{m}sum_{i=1}^{m}(h_{ heta }(x^{(i)})-y^{(i)})x_{j}^{(i)} ]
优点：
1）一次迭代是对所有样本进行计算，此时利用矩阵进行操作，实现了并行。
2）由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，BGD一定能够得到全局最优。
缺点：
当样本数目 m 很大时，每迭代一步都需要对所有样本计算，训练过程会很慢。

4 随机梯度下降

随机梯度下降每次迭代只用一个样本对参数进行更新，加快了训练速度。
一个样本的目标函数：

[J( heta _{0}, heta _{1})=frac{1}{2}(h_{ heta }(x^{(i)})-y^{(i)})^{2} ]
目标函数求偏导：

[frac{partial J( heta _{0}, heta _{1})}{partial heta _{j}}=(h_{ heta }(x^{(i)})-y^{(i)})x_{j}^{(i)} ]
参数更新：

[ heta _{j}:= heta _{j}-alpha frac{partial J( heta _{0}, heta _{1})}{partial heta _{j}}= heta _{j}-alpha(h_{ heta }(x^{(i)})-y^{(i)})x_{j}^{(i)} ]
优点：
由于不是在全部训练数据上的损失函数，而是在每轮迭代中，随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度大大加快。
缺点：
1）准确度下降。由于即使在目标函数为强凸函数的情况下，SGD仍旧无法做到线性收敛。
2）可能会收敛到局部最优，由于单个样本并不能代表全体样本的趋势。
3）不易于并行实现。

5 小批量梯度下降

小批量梯度下降，是对批量梯度下降以及随机梯度下降的一个折中办法。其思想是：每次迭代使用小批量个样本来对参数进行更新。
优点：
1）通过矩阵运算，每次在一个batch上优化神经网络参数并不会比单个数据慢太多。
2）每次使用一个batch可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。
3）可实现并行化。
缺点：
小批量样本个数的不当选择可能会带来一些问题

6 梯度下降总结

如果样本量比较小，采用批量梯度下降算法。如果样本太大，或者在线算法，使用随机梯度下降算法。在实际的一般情况下，采用小批量梯度下降算法。

***参考：统计学习方法梯度下降小结 ***

查看全文

相关阅读:
POJ1486 Sorting Slides 二分图or贪心
 POJ2060 Taxi Cab Scheme 最小路径覆盖
 POJ3083 Children of the Candy Corn 解题报告
 以前的文章
 POJ2449 Remmarguts' Date K短路经典题
 这一年的acm路
 POJ3014 Asteroids 最小点覆盖
 POJ2594 Treasure Exploration 最小路径覆盖
 POJ3009 Curling 2.0 解题报告
 POJ2226 Muddy Fields 最小点集覆盖

原文地址：https://www.cnblogs.com/eugene0/p/11449604.html

梯度下降小结

1 梯度下降原理

1.1 梯度下降必备数学基础

1.2 梯度下降

2 梯度下降算法

3 批量梯度下降

4 随机梯度下降

5 小批量梯度下降

6 梯度下降总结