Adam优化器与其他优化器比较【详细，清楚】 - 走看看

zoukankan html css js c++ java

Adam优化器与其他优化器比较【详细，清楚】

https://www.jianshu.com/p/aebcaf8af76e

1、sgd

2、动量(Momentum)

3、adagrad

大多数的框架实现采用默认学习率α=0.01即可完成比较好的收敛。

4、RMSprop

，

其中：





γ是遗忘因子（或称为指数衰减率），依据经验，默认设置为0.9。

5、adam

，

其中：





m0 初始化为0。

β1 系数为指数衰减率，控制权重分配（动量与当前梯度），通常取接近于1的值。

默认为0.9。

由于m0初始化为0，会导致mt偏向于0，尤其在训练初期阶段。

所以，此处需要对梯度均值mt进行偏差纠正，降低偏差对训练初期的影响。 vt同理。



v0初始化为0。

β2 系数为指数衰减率，控制之前的梯度平方的影响情况。

类似于RMSProp算法，对梯度平方进行加权均值。

默认为0.999



查看全文

相关阅读:
安装Hadoop
爬虫综合大作业
 理解爬虫原理
 中文词频统计与词云生成
 复合数据类型，英文词频统计
 字符串操作、文件操作，英文词频统计预处理
 了解大数据的特点、来源与数据呈现方式
 结对项目-四则运算 “软件”之升级版
 分布式版本控制系统Git的安装与使用
 Maven 依赖的scope标签用法

原文地址：https://www.cnblogs.com/zhangbojiangfeng/p/14271189.html

Copyright © 2011-2022 走看看