Bug: Torch.argmax() 导致梯度没有回传 - 走看看

zoukankan html css js c++ java

Bug: Torch.argmax() 导致梯度没有回传

因为argmax函数不能求导，也就不会有梯度

backward的反向传播的梯度到loss是终止了

其实也很容易看出这个问题，如果最后一步使用了argmax，loss的属性 requires_grad=False，直接调用backward会提示你需要给loss增加梯度属性，但这“治表不治本 ”

网上有两个ref参考

https://discuss.pytorch.org/t/torch-argmax-cause-loss-backward-dont-work/64782/2

https://discuss.pytorch.org/t/backpropagation-issue-when-using-argmax/100335/6

以及 TORCH.TENSOR.GRAD 的文档

This attribute is None by default and becomes a Tensor the first time a call to backward() computes gradients for self. The attribute will then contain the gradients computed and future calls to backward() will accumulate (add) gradients into it.

这段话说明了梯度的两个特点：一是第一次调用backward才会计算梯度，之前是None，二是梯度是可以累加的，如果没有手动清掉的话

补充：

知乎直接给我推了这个问题...: 怎么克服神经网络训练中argmax的不可导性

不过通常来说还是loss设计有问题，比如我本该用回归loss用成了分类loss，才被迫使用argmax

个性签名：时间会解决一切

查看全文

相关阅读:
前台组件
 IntelliJ IDEA 简体中文专题教程
 干货分享 | 创业公司绝对不会告诉你他们在用的工具们
 线程的基本概念 / 计算机程序的思维逻辑
 Dubbo与Zookeeper、SpringMVC整合和使用（负载均衡、容错）
【转载】准人工智能分享Deep Mind报告 ——AI“元强化学习”
（待续）【转载】 DeepMind发Nature子刊：通过元强化学习重新理解多巴胺
 【转载】机器学习算法岗的常见面试问题及准备
 【转载】 180623 Conda install 本地压缩包文件tar.bz2
2017年某次实验室会议 —— 记

原文地址：https://www.cnblogs.com/lfri/p/15552933.html

Copyright © 2011-2022 走看看