梯度下降法（BGD & SGD & Mini-batch SGD）

zoukankan html css js c++ java

梯度下降法（BGD & SGD & Mini-batch SGD）

梯度下降法（Gradient Descent）

优化思想：用当前位置的负梯度方向作为搜索方向，亦即为当前位置下降最快的方向，也称“最速下降法”。越接近目标值时，步长越小，下降越慢。

如下图所示，梯度下降不一定能找到全局最优解，可能寻找到的是局部最优解。（当损失函数是凸函数时，梯度下降得到的解一定是全局最优解，因为凸函数的极小值即为最小值）

梯度下降法

批量梯度下降法（Batch Gradient Descent，BGD）：在更新参数时，BGD根据batch中的所有样本对参数进行更新。

θ为参数，x为每个样本的n个特征值

为了简化表示，增加特征x_0=1

损失函数J，m为一个batch中的样本数

参数更新，α为步长

上式展开即为，其中α和1/m均为常数，可用一个常数表示

随机梯度下降法（Stochastic Gradient Descent，SGD）：和BGD的原理类似，区别在于每次随机选取一个样本j求梯度。

对于训练速度来说，SGD每次仅仅采用一个样本来迭代，训练速度很快，而BGD在样本量很大的时候，训练速度不能让人满意。

对于准确度来说，SGD仅仅用一个样本决定梯度方向，导致解很有可能不是最优。

对于收敛速度来说，由于SGD一次迭代一个样本，导致迭代方向变化很大，不能很快的收敛到局部最优解。

SGD

小批量梯度下降法（Mini-batch Gradient Desent，也称Mini-batch SGD）：BGD和SGD二者的折中法，对于m个样本，选取x个子样本进行迭代，且1<x<m。

（1）选择n个训练样本（n<m，m为总训练集样本数）（即batchsize = n，样本总数为m，随机的思想在于每个epoch之前，随机打乱样本顺序，顺序选取n个样本作为batch）

（2）在这n个样本中进行n次迭代，每次使用1个样本

（3）对n次迭代得出的n个gradient进行加权平均再并求和，作为这一次mini-batch下降梯度

（4）不断在训练集中重复以上步骤，直到收敛。

查看全文

相关阅读:
记录锁
 linux多线程同步pthread_cond_XXX条件变量的理解
 设置创建文件掩码遇到的问题
 函数的可重入和线程安全
 sigemptyset,sigfillset,sigaddset,sigdelset,sigismember,sigprocmask,sigpendmask作用
 嵌入式中断服务函数的一些特点
 linux alarm函数解除read write等函数的阻塞
 孤儿进程，僵死进程
 标准IO的缓冲问题
 《实用技巧》——让你的网站变成响应式的3个简单步骤

原文地址：https://www.cnblogs.com/lvdongjie/p/11318008.html