【机器学习】梯度下降法的相关介绍

zoukankan html css js c++ java

【机器学习】梯度下降法的相关介绍

我们考虑一个代价函数C，这个函数可以将一个参数向量θ映射到一个标量C(θ)上，现在，我们要最小化C(θ)。在机器学习中，这个代价函数通常是损失函数的平均值或者期望值：

$C (θ) = 1 n \sum i = 1 n L (f θ, z i)$ （这个数值被称为训练损失）或者
$C (θ) = \int L (f θ, z) P (z) d z$ （这个数值被称为泛化损失）。其中在监督学习中，我们有z=(x,y)且fθ(x)是参数为θ的y的预测值。

梯度

函数C关于标量θ的梯度，定义如下形式：

$\partial C ( θ ) \partial θ = lim δ θ \to 0 C ( θ + δ θ ) - C ( θ ) δ θ$ 这代表的是，变化△θ引起的函数的变化△C，其中△θ是一个非常小的值。
当θ是一个向量，则梯度∂C(θ)∂θ也是一个向量，其中每个元素是关于θi的∂C(θ)∂θi，其中假设其他参数是固定的，仅仅改变△θi并测量函数的变化量△C。当△θi很小的时候，△C△θi变为了∂C(θ)∂θi。

梯度下降法

我们希望找到一个θ以最小化C(θ)的值。我们可以对其求导：

$\partial C ( θ ) \partial θ = 0$ 然后我们找到最小值点(最大值点和马鞍点)，但是通常我们找不到这个方程的解析解。所以我们要使用数值最优化方法。多数的最优化方法是基于局部下降的：通过对θ的迭代调整，减少C(θ)的值，直到数值不能继续下降。最终我们可以找到一个局部极小点（幸运地话，可以找到全局极小点）。
在基于梯度的优化方法中，最简单的方法是梯度下降法。它存在很多变型形式，我们先定义最原始的梯度下降：
$θ k + 1 = θ k - ε k \partial C ( θ k ) \partial θ k$ 其中，θk代表第k次迭代的参数，εk是一个标量，我们称为学习率(learning rate)，选取这个值是，我们可以固定、自适应或者根据一个下降方案选择。

随机梯度下降

我们可以发现C的公式是一个平均值，是在独立同分布(i.i.d)的样本集上的。为了更快的迭代θ，我们舍去精确的计算，而采用一个样本：

$θ k + 1 = θ k - ε k \partial L ( θ k , z ) \partial θ k$ 其中，z是训练集的下一个样本，或者在在线设定中（没有固定的训练样本数，但是存在连续不断的样本流）是训练分布的下一个采样的样本。随机梯度下降法(SGD)其实更加通用，它的更新方向是一个随机变量，这个随机变量的期望是真实的梯度下降方向。SGD除了它随机性的增长以外，收敛条件和其他的梯度下降法相同。
SGD比原始的梯度下降法具有更快的速度，因为它更新的速度很快。特别是在大数据集的情况下，或者对于在线设定。其实，对于机器学习任务而言，只有在最优化函数不能分解时，才使用传统的梯度下降法。

批量梯度下降法

批量梯度下降法是SGD的一个变型，它使用一小批(B个，例如20或者100个)样本的平均值来获得下降方向。最大的好处在于，可以不使用B维向量乘以一个矩阵，而使用一个矩阵乘以一个矩阵，其中第一个矩阵有B行。这样使得算法更加有效，有时速度可以快2到10倍，但取决于矩阵的大小。

批量梯度下降法的一个好处，在于可以减小梯度估计中的噪声成分（B越大越明显）。然而，由于B的增大，更新的速度会逐渐下降，最终变得没有效率。所以，我们要在“计算效率“和“函数精确性“之间作一次折衷，选取合适的B值大小。

查看全文

相关阅读:
星空雅梦
 星空雅梦
 星空雅梦
 星空雅梦
 星空雅梦
 星空雅梦
 MySQL-数据库三范式
 去除IDEA中xml黄色背景
 git查看commit提交记录详情
 spring-定时任务<task:scheduled-tasks>

原文地址：https://www.cnblogs.com/lixuebin/p/10814851.html

热门文章
java的不可变类
 Scrapy初尝试
 java的finally用法
 java的break跳出多层循环
 java实现函数指针
 java的反射机制
 星空雅梦
 星空雅梦
 星空雅梦
 星空雅梦

【机器学习】梯度下降法的相关介绍

梯度

梯度下降法

随机梯度下降

批量梯度下降法