深度学习_梯度 - 走看看

zoukankan html css js c++ java

深度学习_梯度
1.梯度裁剪

　　在BP过程中会产生梯度消失（就是偏导无限接近0，导致长时记忆无法更新）（特别是RNN,LSTM，Transformer），那么最简单粗暴的方法，设定阈值，当梯度小于阈值时，更新的梯度为阈值，如下图所示：

　　

优点：简单粗暴
　　缺点：很难找到满意的阈值

2.nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)

　　这个函数是根据参数的范数来衡量的 . 通过梯度范数，来实现裁剪

　所有梯度上范数在一起计算，就好像它们被连接成一个向量。梯度内置就地修改。

　　Parameters:
　　Returns:参数的总体范数（作为单个向量来看）（原文：Total norm of the parameters (viewed as a single vector).）
查看全文

相关阅读:
EF写in
1707. [Usaco2007 Nov]tanning分配防晒霜
 BZOJ 1706. [usaco2007 Nov]relays 奶牛接力跑
 1705. [Usaco2007 Nov]Telephone Wire 架设电话线
 BZOJ1704. [Usaco2007 Mar]Face The Right Way 自动转身机
 Codeforces Manthan, Codefest 19 (open for everyone, rated, Div. 1 + Div. 2)
BZOJ1702. [Usaco2007 Mar]Gold Balanced Lineup 平衡的队列
 P2876 [USACO07JAN]解决问题Problem Solving
BZOJ 1908. Pku2054 UVA1205 Color a Tree
P4280 [AHOI2008]逆序对

原文地址：https://www.cnblogs.com/PiaoLingJiLu/p/14925998.html

Copyright © 2011-2022 走看看