ubuntu之路——day8.5 学习率衰减learning rate decay - 走看看

zoukankan html css js c++ java

ubuntu之路——day8.5 学习率衰减learning rate decay

在mini-batch梯度下降法中，我们曾经说过因为分割了baby batch，所以迭代是有波动而且不能够精确收敛于最小值的

因此如果我们将学习率α逐渐变小，就可以使得在学习率α较大的时候加快模型训练速度，在α变小的时候使得模型迭代的波动逐渐减弱，最终收敛于一个较小的区域来得到较为精确的结果

首先是公式1学习率衰减的标准公式：

其中decay rate即衰减率，epoch-num指的是遍历整个训练集的次数，α₀是给定的初始学习率

其次是公式2指数衰减公式：

其中，0.95是一个小于1的初始值，可以指定

接下来公式3,k是一个常数：

公式4，t是mini-batch的大小：

公式5：

离散下降法，每经过一定的迭代次数，指定更低的α即可

公式6：

手动下降法，适用于在小数据集上分步骤实验，可以随时指定α

查看全文

相关阅读:
linux权限掩码
 主机跨网通信时的字节序转换
 鸽巢原理-poj3370
鸽巢原理
 JS面向对象关键词
 Less 命令技巧，从底部网上看
 软件工程概论第七章
 软件工程概论第八章
 软件工程概论第六章
 软件工程概论第五章

原文地址：https://www.cnblogs.com/NWNU-LHY/p/11196016.html

Copyright © 2011-2022 走看看