随机梯度下降 Stochastic gradient descent - 走看看

zoukankan html css js c++ java

随机梯度下降 Stochastic gradient descent

梯度下降法先随机给出参数的一组值，然后更新参数，使每次更新后的结构都能够让损失函数变小，最终达到最小即可。

在梯度下降法中，目标函数其实可以看做是参数的函数，因为给出了样本输入和输出值后，目标函数就只剩下参数部分了，这时可以把参数看做是自变量，则目标函数变成参数的函数了。

梯度下降每次都是更新每个参数，且每个参数更新的形式是一样的，即用前一次该参数的值减掉学习率和目标函数对该参数的偏导数（如果只有1个参数的话，就是导数）

为什么要这样做呢？

通过取不同点处的参数可以看出，这样做恰好可以使原来的目标函数值变低，因此符合我们的要求（即求函数的最小值）。即使当学习速率固定(但不能太大)，梯度下降法也是可以收敛到一个局部最小点的，因为梯度值会越来越小，它和固定的学习率相乘后的积也会越来越小。在线性回归问题中我们就可以用梯度下降法来求回归方程中的参数。有时候该方法也称为批量梯度下降法，这里的批量指的是每一时候参数的更新使用到了所有的训练样本。

查看全文

相关阅读:
jquery遍历节点 children（），next（），prev（），siblings（）closest() 等一些常用方法...
jq 分页
 java8 array、list操作汇【4】）- Java8 Lambda表达式函数式编程【思想】
java8 array、list操作汇【2】）- （Function,Consumer,Predicate,Supplier）应用
 Java8 （Function,Consumer,Predicate,Supplier）详解
 Elasticsearch
org.apache.commons.lang3.Validate
freemarker逻辑判断写法#if
11 Sping框架--AOP的相关概念及其应用
 10 Spring框架--基于注解的IOC配置

原文地址：https://www.cnblogs.com/zeze/p/6517971.html

Copyright © 2011-2022 走看看