zoukankan      html  css  js  c++  java
  • ubuntu之路——day8.5 学习率衰减learning rate decay

    在mini-batch梯度下降法中,我们曾经说过因为分割了baby batch,所以迭代是有波动而且不能够精确收敛于最小值的

    因此如果我们将学习率α逐渐变小,就可以使得在学习率α较大的时候加快模型训练速度,在α变小的时候使得模型迭代的波动逐渐减弱,最终收敛于一个较小的区域来得到较为精确的结果

    首先是公式1学习率衰减的标准公式:

    其中decay rate即衰减率,epoch-num指的是遍历整个训练集的次数,α0是给定的初始学习率

    其次是公式2指数衰减公式:

    其中,0.95是一个小于1的初始值,可以指定

    接下来公式3,k是一个常数:

    公式4,t是mini-batch的大小:

    公式5:

    离散下降法,每经过一定的迭代次数,指定更低的α即可

    公式6

    手动下降法,适用于在小数据集上分步骤实验,可以随时指定α

  • 相关阅读:
    [UVa514] Rails
    今日才真正懂了BFS
    [UVa11292] Dragon of Loowater
    [UVa] TEX Quotes
    白书杂七杂八
    [OpenJudge] Feed_Accounting
    [OpenJudge] Jolly_Jumpers
    Restart
    Collection of Websites
    Oracle11完全卸载方法
  • 原文地址:https://www.cnblogs.com/NWNU-LHY/p/11196016.html
Copyright © 2011-2022 走看看