zoukankan      html  css  js  c++  java
  • 2.2 优化算法

     

    1. mini-batch梯度下降法

      size=m:退化为batch,当训练样本过多时,单次迭代需要处理过多的训练样本

      size=1:随机梯度下降法,产生大量噪声(但通过减小学习率,噪声可以减少),缺点是失去了向量化带来的加速。

      使用mini-size,每次遍历所有样本时,可以进行m/size次梯度下降

      选取原则:

    训练集较小时(<2000),直接使用batch梯度下降

    一般的mini-batch大小为64-512

     (另:选取大小要与CPU/GPU内存相符

    2.momentum

    2.1 指数加权平均

      $v_{t}=eta v_{t-1}+(1-eta) heta_{t}$

      修正偏差:为了解决最开始迭代时,$v_{t}$低于真实值,额外引入一个偏差修正

      $v_{t}=frac{eta v_{t-1}+(1-eta) heta_{t}}{1-eta^{t}}$

    2.2 momentun 梯度下降    

      如图,为了使得每次梯度下降时的走向不像蓝线那样有很多的纵向分量,而希望走向像红线一样更多的是横向分量,我们引入了momentun梯度下降

      

      作者建议一般将参数$eta$设为0.9

    3. RMSprop

     

    β的典型值是0.999。公式中还有一个ϵ,这是一个很小的数,典型值是10^-8

    4.Adam


      β1=0.9,β2=0.999,ϵ=10^8
    。Adam算法相当于先把原始梯度做一个指数加权平均,再做一次归一化处理,然后再更新梯度值。

      只需调整不用的$alpha$

     5.作业

      1.mini-batch

      Shuffling and Partitioning.建立mini-batch通常需要洗牌和划分两个步骤

      2. momentum

      初始化:$v_{dW}^{[l]},v_{db}^{[l]}$

      迭代:

      3.Adam

      初始化:$v_{dW}^{[l]},v_{db}^{[l]},s_{dW}^{[l]},s_{db}^{[l]}$

      迭代:


       

  • 相关阅读:
    Java 介绍比较全面的一遍文章
    JSP页面中path和basepath的含义
    myeclipse2014 破解步骤
    word文档去掉复制过来的背景颜色
    String,创建对象问题
    使用Spring框架的好处(转帖)
    myeclipse中将整块的代码所选中的代码左右移动的快捷键
    点击关闭窗口时,弹出提醒的一个事件
    switch能使用的数据类型有6种
    观察者模式(设计模式_15)
  • 原文地址:https://www.cnblogs.com/cs-zzc/p/11385813.html
Copyright © 2011-2022 走看看