zoukankan html css js c++ java

(转)理解滑动平均(exponential moving average)

转自：理解滑动平均(exponential moving average)

1. 用滑动平均估计局部均值

　　滑动平均(exponential moving average)，或者叫做指数加权平均(exponentially weighted moving average)，可以用来估计变量的局部均值，使得变量的更新与一段时间内的历史取值有关。

　　变量

v t = β \cdot v t - 1 + (1 - β) \cdot θ t (1)

　　上式中，

　　假设起始

表 1 三种变量更新方式

t	不使用滑动平均模型，即给	使用滑动平均模型，按照公式(1)更新	使用滑动平均模型，按照公式(2)更新
0, 1, 2, ... , 35	[0, 10, 20, 10, 0, 10, 20, 30, 5, 0, 10, 20, 10, 0, 10, 20, 30, 5, 0, 10, 20, 10, 0, 10, 20, 30, 5, 0, 10, 20, 10, 0, 10, 20, 30, 5]	[0, 1.0, 2.9, 3.61, 3.249, 3.9241, 5.5317, 7.9785, 7.6807, 6.9126, 7.2213, 8.4992, 8.6493, 7.7844, 8.0059, 9.2053, 11.2848, 10.6563, 9.5907, 9.6316, 10.6685, 10.6016, 9.5414, 9.5873, 10.6286, 12.5657, 11.8091, 10.6282, 10.5654, 11.5089, 11.358, 10.2222, 10.2, 11.18, 13.062, 12.2558]	[0, 10.0, 15.2632, 13.321, 9.4475, 9.5824, 11.8057, 15.2932, 13.4859, 11.2844, 11.0872, 12.3861, 12.0536, 10.4374, 10.3807, 11.592, 13.8515, 12.7892, 11.2844, 11.1359, 12.145, 11.9041, 10.5837, 10.5197, 11.5499, 13.5376, 12.6248, 11.2844, 11.1489, 12.0777, 11.8608, 10.6276, 10.5627, 11.5365, 13.4357, 12.5704]

图 1：三种变量更新方式

　　Andrew Ng在Course 2 Improving Deep Neural Networks中讲到，

　　加入了Bias correction后，

v t = β \cdot v t - 1 + (1 - β) \cdot θ t

　　当

　　滑动平均的好处：

占内存少，不需要保存过去10个或者100个历史

2. TensorFlow中使用滑动平均来更新变量（参数）

　　滑动平均可以看作是变量的过去一段时间取值的均值，相比对变量直接赋值而言，滑动平均得到的值在图像上更加平缓光滑，抖动性更小，不会因为某次的异常取值而使得滑动平均值波动很大，如图 1所示。

　　TensorFlow 提供了 tf.train.ExponentialMovingAverage 来实现滑动平均。在初始化 ExponentialMovingAverage 时，需要提供一个衰减率（decay），即公式(1)(2)中的

shadow_variable = decay \cdot shadow_variable + (1 - decay) \cdot variable (3)

公式(3)中的 shadow_variable 就是公式(1)中的

　　公式(3)中，decay 决定了影子变量的更新速度，decay 越大影子变量越趋于稳定。在实际运用中，decay一般会设成非常接近 1 的数（比如0.999或0.9999）。为了使得影子变量在训练前期可以更新更快，ExponentialMovingAverage 还提供了 num_updates 参数动态设置 decay 的大小。如果在初始化 ExponentialMovingAverage 时提供了 num_updates 参数，那么每次使用的衰减率将是：

min{decay,1+num_updates10+num_updates}(4)(4)min{decay,1+num_updates10+num_updates}

这一点其实和 Bias correction 很像。

　　TensorFlow 中使用 ExponentialMovingAverage 的例子：code （如果 GitHub 无法加载 .ipynb 文件，则将 .ipynb 文件的 URL 复制到网站 https://nbviewer.jupyter.org/）

3. 滑动平均为什么在测试过程中被使用？

　　滑动平均可以使模型在测试数据上更健壮（robust）。“采用随机梯度下降算法训练神经网络时，使用滑动平均在很多应用中都可以在一定程度上提高最终模型在测试数据上的表现。”

　　对神经网络边的权重 weights 使用滑动平均，得到对应的影子变量 shadow_weights。在训练过程仍然使用原来不带滑动平均的权重 weights，不然无法得到 weights 下一步更新的值，又怎么求下一步 weights 的影子变量 shadow_weights。之后在测试过程中使用 shadow_weights 来代替 weights 作为神经网络边的权重，这样在测试数据上效果更好。因为 shadow_weights 的更新更加平滑，对于随机梯度下降而言，更平滑的更新说明不会偏离最优点很远；对于梯度下降 batch gradient decent，我感觉影子变量作用不大，因为梯度下降的方向已经是最优的了，loss 一定减小；对于 mini-batch gradient decent，可以尝试滑动平均，毕竟 mini-batch gradient decent 对参数的更新也存在抖动。

　　设

References

Course 2 Improving Deep Neural Networks by Andrew Ng

《TensorFlow实战Google深度学习框架》 4.4.3

查看全文

相关阅读:
Python爬虫之Scrapy框架的简介和基础应用
 python爬虫之selenium,谷歌无头浏览器
 12.块设备驱动程序（磁盘）
11.USB输入子系统
 10.触摸屏驱动
 9.LCD驱动架构
 8.platform驱动分离
 7.输入子系统框架
 5.标签管理
 4.分支管理

原文地址：https://www.cnblogs.com/feiquan/p/11652960.html