zoukankan      html  css  js  c++  java
  • Pytorch 中的 zero_grad 使用方法

    Pytorch 为什么每一轮batch需要设置optimizer.zero_grad

    根据pytorch中的backward()函数的计算,当网络参量进行反馈时,梯度是被积累的而不是被替换掉;但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积,因此这里就需要每个batch设置一遍zero_grad 了。

    其实这里还可以补充的一点是,如果不是每一个batch就清除掉原有的梯度,而是比如说两个batch再清除掉梯度,这是一种变相提高batch_size的方法,对于计算机硬件不行,但是batch_size可能需要设高的领域比较适合,比如目标检测模型的训练。

    关于这一点可以参考:https://discuss.pytorch.org/t/why-do-we-need-to-set-the-gradients-manually-to-zero-in-pytorch/4903/3

    关于backward()的计算可以参考:https://discuss.pytorch.org/t/how-to-use-the-backward-functions-for-multiple-losses/1826/5
    ————————————————
    版权声明:本文为CSDN博主「xiaoxifei」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/xiaoxifei/article/details/83474724




    如果这篇文章帮助到了你,你可以请作者喝一杯咖啡

  • 相关阅读:
    【JAVA与C#比较】其它
    C#和java之间的一些差异与共性
    C#与Java的语法差异
    关于npm本地安装模块包(node_modules),安装不了的问题
    vue
    vue
    vue
    vue
    v
    vue -model
  • 原文地址:https://www.cnblogs.com/sddai/p/14504038.html
Copyright © 2011-2022 走看看