1.梯度下降法的三种形式Batch Gradient Desecnt、Stochastic Gradient Desecnt、Min-Batch Gradient Desecnt及其总结
详见:Poll的笔记 写的非常清楚,看一看就能明白
2.关于梯度下降的优化算法
英文版见:Sebastian Ruder博士写的《An overview of gradient descent optimization algorithms》
3. 关于SGD+momentum中两种形式的理解,其实是一回事
在阅读SGD+momentum相关资料时,遇到了不同的地方公式写法不一致的情况,经历了一番小纠结后经大腿点拨,其实两个公式是一回事,具体如下:
momentum动量,模拟物体运动的惯性,当进行参数更新时,SGD+momentum在一定程度上保留速度的方向,同时结合当前batch的梯度微调,确定最终需要更新方向。这样做可以更稳定,学习地更快,并且还有一定摆脱局部最优的能力。
公式1:
v=μv-αΔL(1)
w=w+v(2)
公式2:
v=μv+αΔL(3)
w=w-v(4)
因为从初始时刻算起,初始化v=0,所以两个公式中的v不停的累加,公式1中(1)v累加的是负值,公式2中(3)v累加的是正值。如论如何,在进行参数w的更新时,肯定是要减去一个正数,即公式(4),也就是相当于加上一个负数,也即公式(2)。