批量梯度下降和随机梯度下降(SGD)和小批量梯度下降 || 在线学习机制

zoukankan html css js c++ java

批量梯度下降和随机梯度下降(SGD)和小批量梯度下降 || 在线学习机制
左侧像高方差的算法，增加训练集的大小提高性能右侧像高偏差的算法，不需要增大算法的规模,m=1000就很好了一个很自然的方法是多加一些特征或者在你的神经网络里加一些隐藏的单元等等所以最后你会变成一个像左边的图 也许这相当于m等于1000 这给你更多的信心去花时间在添加基础设施来改进算法而不是用多于一千条数据来建模会更加有效果所以在大规模的机器学习中我们喜欢找到合理的计算量的方法或高效率的计算量的方法来处理大的数据集
对于很多机器学习算法包括线性回归、逻辑回归、神经网络等等算法的实现都是通过得出某个代价函数
或者某个最优化的目标来实现的然后使用梯度下降这样的方法来求得代价函数的最小值当我们的训练集较大时梯度下降算法则显得计算量非常大
而梯度下降法的问题是当m值很大时计算这个微分项的计算量就变得很大这种梯度下降算法也被称为批量梯度下降(batch gradient descent) “批量”就表示我们需要每次都考虑所有的训练样本

打乱数据是为了快一些收敛

随机梯度下降不需要等到对所有m个训练样本求和来得到梯度项而是只需要对单个训练样本求出这个梯度项
我们已经在这个过程中开始优化参数了不需要等到对所有这些数据进行扫描然后才一点点地修改参数直到达到全局最小值
对随机梯度下降来说我们只需要一次关注一个训练样本而我们已经开始一点点把参数朝着全局最小值的方向进行修改了

批量梯度下降的收敛过程 会倾向于一条近视的直线一直找到全局最小值

在随机梯度下降中每一次迭代都会更快因为每一次迭代只需要保证对一个训练样本拟合好就行了

所以如果我们从这个点开始进行随机梯度下降的话第一次迭代可能会让参数朝着这个方向移动
然后第二次迭代只考虑第二个训练样本 假如很不幸 我们朝向了一个错误的方向第三次迭代我们又尽力让参数修改到拟合第三组训练样本
可能最终会得到这个方向然后再考虑第四个训练样本，等等
在你运行随机梯度下降的过程中你会发现一般来讲参数是朝着全局最小值的方向被更新的但也不一定
所以看起来它是以某个比较随机、迂回的路径在朝全局最小值逼近实际上你运行随机梯度下降和批量梯度下降两种方法的收敛形式是不同的
实际上随机梯度下降是在某个靠近全局最小值的区域内徘徊而不是直接逼近全局最小值并停留在那点但实际上这并没有多大问题
只要参数最终移动到某个非常靠近全局最小值的区域内这也会得出一个较为不错的假设
所以通常我们用随机梯度下降法也能得到一个很接近全局最小值的参数对于绝大部分实际应用的目的来说已经足够了
最后一点细节在随机梯度下降中我们有一个外层循环它决定了内层循环的执行次数所以外层循环应该执行多少次呢
这取决于训练样本的大小 通常一次就够了最多到10次是比较典型的因此如果我们有非常大量的数据 , 所以每次你只需要考虑一个训练样本
你就能训练出非常好的假设这时由于m非常大那么内循环只用做一次就够了
但通常来说循环1到10次都是非常合理的但这还是取决于你训练样本的大小如果你跟批量梯度下降比较一下的话
批量梯度下降在一步梯度下降的过程中就需要考虑全部的训练样本 所以批量梯度下降就是这样微小的一次次移动
这也是为什么随机梯度下降法要快得多这就是随机梯度下降了如果你应用它应该就能在很多学习算法中应用大量数据了并且会得到更好的算法表现
小批量梯度下降。他们有时甚至比随机梯度下降更快一点在仅仅看了前10个数据, 我们就可以开始取得进展，可以改进参数theta，而不是一定要把整个训练集扫描一遍. 所以, 这就是为什么小批量梯度下降比批量梯度下降更快。为什么我们要一次看 b 个数据, 而不是每次只看一个数据作为随机梯度下降？答案是因为矢量化。特别是小批量梯度下降可能优于随机梯度下降，只要你能较好地实行矢量化。在这种情况下, 10个数据的总和可以以更矢量化的方式执行，这将允许你对十个数据的计算进行部分的并行化小批量梯度下降的一个缺点是, 现在有了这个额外的参数 b, 您可能需要调整小批量批次的大小,因此可能需要时间
回到我们之前批量梯度下降的算法我们确定梯度下降已经收敛的一个标准方法是画出最优化的代价函数关于迭代次数的变化这就是代价函数我们要保证这个代价函数在每一次迭代中都是下降的当训练集比较小的时候我们不难完成对于随机梯度下降算法为了检查算法是否收敛我们可以进行下面的工作让我们沿用之前定义的cost函数关于θ的cost函数随机梯度下降就是这样进行的在算法扫描到样本(x(i),y(i)) 但在更新参数θ之前使用这个样本我们可以算出这个样本对应的cost函数让我们来计算出这个假设对这个训练样本的表现我要在更新θ前来完成这一步原因是如果我们用这个样本更新θ以后再让它在这个训练样本上预测 其表现就比实际上要更好了 为了检查随机梯度下降的收敛性我们要做的是每1000次迭代我们可以画出前一步中计算出的cost函数并对算法处理的最后1000个样本的cost值求平均值如果你这样做的话它会很有效地帮你估计出你的算法在最后1000个样本上的表现所以我们不需要时不时地计算Jtrain 那样的话需要所有的训练样本随机梯度下降法的这个步骤只需要在每次更新θ之前进行也并不需要太大的计算量要做的就是每1000次迭代运算中我们对最后1000个样本的cost值求平均然后画出来通过观察这些画出来的图我们就能检查出随机梯度下降是否在收敛
左上图：红色的曲线代表随机梯度下降使用一个更小的学习速率

左下图：所以可能用5000组样本来平均比用1000组样本来平均更能看出趋势

如果曲线看起来噪声较大或者老是上下振动那就试试增大你要平均的样本数量这样应该就能得到比较好的变化趋势
右下图：如果你发现代价值在上升那么就换一个小一点的α值
如果你想让随机梯度下降确实收敛到全局最小值你可以随时间的变化减小学习速率α的值迭代次数指的是你运行随机梯度下降的迭代次数就是你算过的训练样本的数量,但是需要调整常数1，2的大小。这让算法显得更繁琐但如果你能调整得到比较好的参数的话你会得到的图形是你的算法会在最小值附近振荡但当它越来越靠近最小值的时候由于你减小了学习速率因此这个振荡也会越来越小直到落到几乎靠近全局最小的地方这个公式起作用的原因是随着算法的运行迭代次数会越来越大因此学习速率α会慢慢变小因此你的每一步就会越来越小直到最终收敛到全局最小值所以如果你慢慢减小α的值到0 你会最后得到一个更好一点的假设但由于确定这两个常数需要更多的工作量并且我们通常也对能够很接近全局最小值的参数已经很满意了因此我们很少采用逐渐减小α的值的方法在随机梯度下降中你看到更多的还是让α的值为常数
在线学习机制让我们可以模型化问题在拥有连续一波数据或连续的数据流涌进来而我们又需要一个算法来从中学习的时候来模型化问题今天许多大型网站或者许多大型网络公司使用不同版本的在线学习机制算法从大批的涌入又离开网站的用户身上进行学习特别要提及的是如果你有一个由连续的用户流引发的连续的数据流用户流进入你的网站你能做的是使用一个在线学习机制从数据流中学习用户的偏好然后使用这些信息来优化一些关于网站的决策 x 是指客户所指定的起始地与目的地以及我们这一次提供给客户的价格而y则取1或0 y值取决于客户是否选择了使用我们的运输服务在线学习机制中我们实际上丢弃了获取一个固定的数据集这样的概念取而代之的是我们拥有一个算法现在当我们获取一个样本然后我们利用那个样本获取信息学习然后我们丢弃这个样本而且我们永远不会再使用它这就是为什么我们在一个时间点只会处理一个样本的原因这种在线学习算法是一种非常合理的算法因为数据本质上是自由的如果你有如此多的数据而数据本质上是无限的那么或许就真的没必要重复处理一个样本当然如果我们只有少量的用户那么我们就不选择像这样的在线学习算法你可能最好是要保存好所有的数据保存在一个固定的数据集里然后对这个数据集使用某种算法但是如果你确实有一个连续的数据流那么一个在线学习机制会非常的有效我也必须要提到一个这种在线学习算法会带来的有趣的效果那就是 它可以对正在变化的用户偏好进行调适
运行此类网站的一种方法就是连续给用户展示你的十个最佳猜测这十个推荐是指用户可能会喜欢的其他的手机
那么每次一个用户访问你将会得到十个样本十个(x,y) 数据对然后利用一个在线学习算法来更新你的参数更新过程中会对这十个样本利用10步梯度下降法
然后你可以丢弃你的数据了如果你真的拥有一个连续的用户流进入你的网站这将会是一个非常合理的学习方法来学习你的算法中的参数从而来给用户展示十部他们最有可能点击查看的手机
实际上如果你有一个协作过滤系统你可以想象到一个协作过滤系统可以给你更多的特征
这些特征可以整合到逻辑回归的分类器从而可以尝试着预测对于你可能推荐给用户的不同产品的点击率当然我需要说明的是
这些问题中的任何一个都可以被归类到标准的拥有一个固定的样本集的机器学习问题中

这就是在线学习机制然后就像我们所看到的我们所使用的这个算法与随机梯度下降算法非常类似唯一的区别的是
我们不会使用一个固定的数据集我们会做的是获取一个用户样本从那个样本中学习然后丢弃那个样本并继续下去
而且如果你对某一种应用有一个连续的数据流这样的算法可能会非常值得考虑当然在线学习的一个优点就是
如果你有一个变化的用户群又或者你在尝试预测的事情在缓慢变化就像你的用户的品味在缓慢变化这个在线学习算法可以慢慢地调试你所学习到的假设将其调节更新到最新的用户行为

一台计算机多核此时不需要担心网络延时问题
某些线性代数函数库会自动利用多个核并行地完成线性代数运算因此如果你幸运地使用了这种线性代数函数库
当然并不是每个函数库都会自动并行但如果你用了这样一个函数库并且你有一个矢量化得很好的算法实现
那么有时你只需要按照标准的矢量化方式实现机器学习算法而不用管多核并行的问题
因为你的线性代数函数库会自动帮助你完成多核并行的工作因此这时你不需要使用映射化简技术
但是对于其他的问题使用基于映射化简的实现寻找并使用适合映射化简的问题表述然后实现一个多核并行的算法可能是个好主意它将会加速你的机器学习算法
查看全文

相关阅读:
Java_大数加法
 Java_找出最多的10个单词
 过滤文本敏感词
 JDK(Win10)下载与安装
 Agile PLM_统计物料消耗
 Java_扑克牌顺子
 Java8_stream_集合对象属性的合并
 Apache Maven下载与安装
 java泛型无敌
 Java异常处理无敌

原文地址：https://www.cnblogs.com/tingtin/p/12242455.html