梯度降级算法简介
之前如果需要求出最佳的线性回归模型,就需要求出代价函数的最小值。在上一篇文章中,求解的问题比较简单,只有一个简单的参数。梯度降级算法就可以用来求出代价函数最小值。
梯度降级算法的在维基的定义:
梯度下降法是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索
首先,复习一下之前前面的讲过求解最佳的代价函数的过程
那么如何通过梯度降级算法解决这个问题呢?首先对θ0和θ1进行初始化,初始化的值是什么并不重要,但通常的选择是将它们都初始化为0。 我们在梯度下降算法中要做的,就是不停地一点点地改变θ0和θ1,试图通过这种改变使得J(θ0, θ1)变小,直到我们找到J的最小值,这个最小值就是一个局部最优解。
求解的过程可能如下:
最上面的点是起始点,就加上如同一个人站在起始点的位置,最后需要回到最低点的位置,就需要一步步地向下走
梯度降级算法定义
梯度降级算法的定义如下:
:=
表示的就是赋值语句- a,学习速率,表示的是在每一步的步长。在上面的例子中,稼穑你是一个人需要从山顶下山,那么a表示的就是你每一步的长度
- 后面的数学公式就是一个数学公式,是一个偏导数。
需要注意一点的是,需要同时更新所有的theta参数,包括theta-0,theta-1。这个其实在偏导数里面也是一个最基本的常识了,这里不作过多的讲解。如果你不了解,那只要记住就可以了。
下面的这个例子就是错误的,不是同时更新的。
为了能够形象地说明梯度讲解算法的用法,那么我们简化梯度讲解算法,假设仅仅只存在一个参数theta-1
。
通过在第三节中讲述的,J(θ1)的图形就是一个曲线。利用阶梯降级函数的定义
那么最后的求解过程为:
这样就找到了最优解,和第三节中得到的最优解也是一样的。
需要注意的问题是,学习速率a
的设置既不能太大也不能太小,否则就会出现下面的问题。
如果a
太小,那么寻找最优解的时间过长;如果a
太大,那么有可能无法找到最优解。
梯度降级算法在线性回归中的应用
下面还是简单的给出梯度降级算法和线性回归的算法定义
为了方便对算法的求解进行描述,我们还是假设仅仅只是存在θ1和θ2
将右边定义的J(θ)导入到左边的梯度降级算法中,得到如下的结果:
但是需要注意的是,在仅仅只是存在θ1和θ2的情况下,代价函数的图形为:
是一个凹图像,这个之前说的是不一致的。之前的那个图像仅仅是为了表述方面而作的图。
最后将3D图转换为轮廓图,得到最后的最小的代价函数如下:
以上就是梯度降级算法在线性回归中的应用
批梯度下降算法
批梯度下降算法的定义就是,在每一步的梯度下降过程中,使用所有的训练样本。 当然还有一些算法仅仅只是使用部分的训练样本。目前讨论的都是使用所有的训练样本。
为了能到远方,脚下的每一步都不能少