Batch Normalization 反向传播（backpropagation ）公式的推导

zoukankan html css js c++ java

Batch Normalization 反向传播（backpropagation ）公式的推导
What does the gradient flowing through batch normalization looks like ?

反向传播梯度下降权值参数更新公式的推导全依赖于复合函数求梯度时的链式法则。

1. Batch Normalization

给定输入样本 x∈RN×D，经过一个神经元个数为 H 的隐层，负责连接输入层和隐层的权值矩阵 w∈RD×H，以及偏置向量 b∈RH。

Batch Normalization 的过程如下：
- 仿射变换（affine transformation）
  
  $h = X W + b$
  显然 h∈RN×H
- batch normalization 变换：
  
  $y = γ h^+ β$
  
  其中 γ,β 是待学习的参数，h^ 是 h 去均值和方差归一化的形式：
  
  $h^= (h - μ) (σ 2 + ϵ) - 1 / 2$
  
  进一步其标量形式如下：
  
  $h ˆ k l = (h k l - μ l) (σ 2 l + ϵ) - 1 / 2$
  l={1,…,H}，μ 和 σ 分别是对矩阵 h∈RN×H 的各个属性列，求均值和方差，最终构成的均值向量和方差向量。
  
  $μ l = 1 N \sum p h p l, σ 2 l = 1 N \sum p (h p l - μ l) 2$
2. ∂L∂h,∂L∂γ,∂L∂β 的计算

首先我们来看损失函数 L 关于隐层输入偏导的计算：

dLdh=⎛⎝⎜⎜⎜⎜⎜⎜⎜dLdh11..dLdhN1..dLdhkl...dLdh1H..dLdhNH⎞⎠⎟⎟⎟⎟⎟⎟⎟.

又由于：

h=XW+b,h⇒h^,h^⇒y

由链式法则可知：

∂L∂hij=∑k,l∂L∂ykl∂ykl∂h^kl∂h^kl∂hij

显然其中 ∂ykl∂h^kl=γl，

又由于：

hˆkl=(hkl−μl)(σ2l+ϵ)−1/2,μl=1N∑phpl,σ2l=1N∑p(hpl−μl)2

所以：

dh^kldhij=(δikδjl−1Nδjl)(σ2l+ϵ)−1/2−12(hkl−μl)dσ2ldhij(σ2l+ϵ)−3/2

根据 σ2l 与 hij 的计算公式可知：

dσ2ldhij====2N∑p(hpl−μl)(δipδjl−1Nδjl)（只有在p=1时）2N(hil−μl)δjl−2Nδjl⎛⎝1N∑p(hpl−μl)⎞⎠2N(hil−μl)δjl−2Nδjl⎛⎝1N∑phpl−μl⎞⎠（显然右侧为0）2N(hil−μl)δjl
查看全文

相关阅读:
预览上传
 使用 Vagrant 打造跨平台开发环境fffff
使用 Vagrant 打造跨平台开发环境
 弱智python小游戏猜数字
 Linux设置固定IP
call_user_func
mongodb 下载安装转
 chrome浏览器下的xdebug helper使用方法
 类似NL的update更新
 如何启用并行？

原文地址：https://www.cnblogs.com/mtcnn/p/9421692.html

Batch Normalization 反向传播（backpropagation ）公式的推导

1. Batch Normalization

2. ∂L∂h,∂L∂γ,∂L∂β 的计算