梯度下降法时基于这样的观察:如果是函数F(x)在点a处可微且有定义,那么函数F(x)在a点沿着梯度相反的方向-▽F(a)下降最快。因而,如果b=a-γ▽F(a)对于γ>0为一个够小数值时成立,那么F(a)≥F(b)。
考虑到这一点,我们可以从函数F的局部极小值的初始估计x0出发,并考虑如下序列x0,x1,x2,...使得x(n+1)=x(n)-γ(n)▽F(x(n)),n≥0.
因此可得到 F(x0)≥F(x1)≥F(x2)≥...,
如果顺利的话序列(Xn)收敛到期望的极值。注意每次迭代步长可以改变。