Pytorch 中的 zero_grad 使用方法 - 走看看

zoukankan html css js c++ java

Pytorch 中的 zero_grad 使用方法

Pytorch 为什么每一轮batch需要设置optimizer.zero_grad

根据pytorch中的backward()函数的计算，当网络参量进行反馈时，梯度是被积累的而不是被替换掉；但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积，因此这里就需要每个batch设置一遍zero_grad 了。

其实这里还可以补充的一点是，如果不是每一个batch就清除掉原有的梯度，而是比如说两个batch再清除掉梯度，这是一种变相提高batch_size的方法，对于计算机硬件不行，但是batch_size可能需要设高的领域比较适合，比如目标检测模型的训练。

关于这一点可以参考：https://discuss.pytorch.org/t/why-do-we-need-to-set-the-gradients-manually-to-zero-in-pytorch/4903/3

关于backward()的计算可以参考：https://discuss.pytorch.org/t/how-to-use-the-backward-functions-for-multiple-losses/1826/5
————————————————
版权声明：本文为CSDN博主「xiaoxifei」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/xiaoxifei/article/details/83474724

如果这篇文章帮助到了你，你可以请作者喝一杯咖啡

查看全文

相关阅读:
组策略导入导出secedit
ipad常见错误
 ipad系统路径
 内核操作注册表例子
 WoW64子系统
 win2003 shutdown命令
 regedit 导入注册表
 windbg for CLR
WM_POWERBROADCAST
OpenSSL命令

原文地址：https://www.cnblogs.com/sddai/p/14504038.html

Copyright © 2011-2022 走看看