zoukankan      html  css  js  c++  java
  • 随机梯度下降法SGD

    梯度下降法需要遍历数据集上百次,数据集越大所花费的时间越多。而现在训练的样本集越来越大,造成梯度下降法造成的时间成本非常高,难以规模化。

    随机梯度下降法,是从样本集中抽出一小部分数据(随机抽出),用来做梯度下降法。这个虽然会有一点误差,但我们每次只走一小步。他速度更快,并且更容易规模化。

    ADAGRAD是GSD的改进版,他自动选择了动量和学习率衰减。使用ADAGRAD通常会使学习过程对超参数不那么敏感。

  • 相关阅读:
    Django路由系统
    修改数据库时区问题
    Django框架篇
    前端css
    前端html
    前端初识
    数据库3
    数据库2
    数据库1
    数据库初识
  • 原文地址:https://www.cnblogs.com/HL-blog/p/9289324.html
Copyright © 2011-2022 走看看