Autograd与计算图-04

zoukankan html css js c++ java

Autograd与计算图-04
　　基本数据Tensor可以保证完成前向传播，想要完成神经网络的训练，接下来还需要进行反向传播与梯度更新，而PyTorch提供了自动求导机制autograd，将前向传播的计算记录成计算图，自动完成求导。在PyTorch 0.4版本之前， Tensor仅仅是对多维数组的抽象，使用自动求导机制需要将Tensor封装成torch.autograd.Variable类型，才能构建计算图。 PyTorch 0.4版本则将Tensor与Variable进行了整合，以前Variable的使用情景都可以直接使用Tensor，变得更简单实用。

本节首先介绍Tensor的自动求导属性，然后对计算图进行简要的讲解。

1. Tensor的自动求导： Autograd
　自动求导机制记录了Tensor的操作，以便自动求导与反向传播。可以通过requires_grad参数来创建支持自动求导机制的Tensor。
　require_grad参数表示是否需要对该Tensor进行求导，默认为False；设置为True则需要求导，并且依赖于该Tensor的之后的所有节点都需要求导。值得注意的是，在PyTorch 0.4对于Tensor的自动求导中， volatile参数已经被其他torch.no_grad()等函数取代了。
　Tensor有两个重要的属性，分别记录了该Tensor的梯度与经历的操作。
　　　grad：该Tensor对应的梯度，类型为Tensor，并与Tensor同维度。
grad_fn：指向function对象，即该Tensor经过了什么样的操作，用作反向传播的梯度计算，如果该Tensor由用户自己创建，则该grad_fn为None。

　具体的参数使用示例如下：
1 import torch 2 3 a = torch.randn(2, 2, requires_grad=True) 4 b = torch.randn(2, 2) 5 6 # 可以看到默认的Tensor是不需要求导的，设置requires_grad为True后则需要求导 7 print(a.requires_grad) 8 >> True 9 print(b.requires_grad) 10 >> False 11 12 # 也可以通过内置函数requires_grad_()将Tensor变为需要求导 13 print(b.requires_grad_()) 14 >> tensor([[ 1.3655, -1.5378], 15 [-0.2241, -1.4778]], requires_grad=True) 16 print(b.requires_grad) 17 >> True 18 19 # 通过计算生成的Tensor，由于依赖的Tensor需要求导，因此c也需要求导 20 c = a + b 21 print(c.requires_grad) 22 >> True 23 24 # a与b是自己创建的， grad_fn为None，而c的grad_fn则是一个Add函数操作 25 print(a.grad_fn, b.grad_fn, c.grad_fn) 26 >> None None <AddBackward0 object at 0x7f5ae5a45390> 27 # detach就是截断反向传播的梯度流 28 d = c.detach() 29 print(d.requires_grad) 30 >> False

View Code
注意：早些版本使用.data属性来获取数据， PyTorch 0.4中建议使用Tensor.detach()函数，因为.data属性在某些情况下不安全，原因在于对.data生成的数据进行修改不会被autograd追踪。 Tensor.detach()函数生成的数据默认requires_grad为False。

2. 计算图

计算图是PyTorch对于神经网络的具体实现形式，包括每一个数据Tensor及Tensor之间的函数function。在此我们以z=wx+b为例，通常在神经网络中， x为输入， w与b为网络需要学习的参数， z为输出，在这一层，计算图构建方法如图2.4所示。

在图2.4中， x、 ω和b都是用户自己创建的，因此都为叶节点， ωx首先经过乘法算子产生中间节点y，然后与b经过加法算法产生最终输出z，并作为根节点。

Autograd的基本原理是随着每一步Tensor的计算操作，逐渐生成计算图，并将操作的function记录在Tensor的grad_fn中。在前向计算完后，只需对根节点进行backward函数操作，即可从当前根节点自动进行反向传播与梯度计算，从而得到每一个叶子节点的梯度，梯度计算遵循链式求导法则。
1 import torch 2 3 # 生成3个Tensor变量，并作为叶节点 4 x = torch.randn(1) 5 w = torch.ones(1, requires_grad =True) 6 b = torch.ones(1, requires_grad=True) 7 8 # 自己生成的，因此都为叶节点 9 print(x.is_leaf, w.is_leaf, b.is_leaf) 10 >> True True True 11 12 # 进行前向计算，由计算生成的变量都不是叶节点 13 y = w*x 14 z = y+b 15 print(y.is_leaf, z.is_leaf) 16 >> False False 17 18 # 由于依赖的变量有需要求导的，因此y与z都需要求导 19 print(y.requires_grad, z.requires_grad) 20 >> True True 21 22 23 # grad_fn记录生成该变量经过了什么操作，如y是Mul， z是Add 24 print(y.grad_fn, z.grad_fn) 25 >> <MulBackward0 object at 0x7fb2cff0d390> <AddBackward0 object at 0x7fb2cff0d3c8> 26 27 # 对根节点调用backward()函数，进行梯度反传 28 z.backward(retain_graph =True) 29 print(w.grad, b.grad) 30 >> tensor([0.1494]) tensor([1.])

View Code
3. Autograd注意事项
PyTorch的Autograd机制使得其可以灵活地进行前向传播与梯度计算，在实际使用时，需要注意以下3点，如图2.5所示。

动态图特性： PyTorch建立的计算图是动态的，这也是PyTorch的一大特点。动态图是指程序运行时，每次前向传播时从头开始构建计算图，这样不同的前向传播就可以有不同的计算图，也可以在前向时插入各种Python的控制语句，不需要事先把所有的图都构建出来，并且可以很方便地查看中间过程变量。

backward()函数还有一个需要传入的参数grad_variabels，其代表了根节点的导数，也可以看做根节点各部分的权重系数。因为PyTorch不允许Tensor对Tensor求导，求导时都是标量对于Tensor进行求导，因此，如果根节点是向量，则应配以对应大小的权重，并求和得到标量，再反传。如果根节点的值是标量，则该参数可以省略，默认为1。

当有多个输出需要同时进行梯度反传时，需要将retain_graph设置为True，从而保证在计算多个输出的梯度时互不影响。
查看全文

相关阅读:
插件开发取路径
 使用SWT模拟鼠标键盘事件
 简单RCP框架源码分析
 dom4j中使用xpath解析带命名空间的xml文件,取不到节点的解决办法
 log4j不能输出配置文件问题的解决。
SWT中定时器的一种特殊实现方式/SWT中线程互访时display.asyncExec/display.syncExec...程序死掉无响应的解决办法
 Eclipse插件开发中对于外部Jar包和类文件引用的处理（彻底解决插件开发中的NoClassDefFoundError问题）
zk 3.6数据绑定
 PythonExcel 模块对比
 去除数组中重复元素

原文地址：https://www.cnblogs.com/zhaopengpeng/p/13603704.html