zoukankan      html  css  js  c++  java
  • 混合精度训练

    论文:https://arxiv.org/pdf/1710.03740.pdf

    译文:混合精度训练

    摘要

    增加神经网络的size,可以提高准确率。但同时,也加大了训练模型所需的内存和计算量。我们介绍一种使用半精度浮点数来训练深度神经网络的方法,不会损失准确率,也不需要修改超参数。这种方法让内存需求减半,而且在最近的GPU上,加速了算术运算。权值、激活值和梯度都以IEEE半精度格式存储。由于半精度的数值范围比单精度小,我们提出3种技术避免关键信息丢失。1)我们维护一份权值的单精度copy,2)我们放大损失,来保留较小的梯度。3)我们证明,前面提出的方法,可以在很多任务和现代大规模模型(超过1亿参数)上,基于大数据集训练。

    介绍

    深度学习让很多不同的应用都取得了很大的进步,图像识别、语言建模、机器翻译和语音识别等等。这也衍生出两个关键的问题,更大的数据集和更复杂的模型

    更大的模型通常需要更多的计算量和内存来训练。

    实现 

    1、FP32:

    在混合精度训练中,权值、激活值和梯度是以FP16存储的。

    2、损失放大:

    3、算术精度:

    总的来说,神经网络算术运算分为3类:向量点乘 

    结果

    Baseline(FP32):激活值、权值和梯度都用单精度存储。所有算术运算也都用FP32。

    Mix Precision(MP):存储和算术运算都有用FP16。权值、激活值和梯度都用FP16来存储。权值存一份FP32主copy,用于更新。

    总结和后续工作

    混合精度训练,让我们减少内存消耗,以及花在算术运算上的时间。我们已经证明,很多深度学习模型可以用这种技术来训练,并且没有准确度损失,也不需要调参。对于小梯度很多的模型,可以采用梯度放大的办法来达到和FP32一样的准确度。 

    如果DNN运算是受限于内存和算术带宽,那么在Volta架构的GPU上,FP16和FP32的加速比是2~6。如果是受限于延迟,加速比则会小一些网络训练和推理总的加速比,取决于框架和库对混合精度的优化,这也是后续工作的一个重点(本文实验用的库和框架都比较旧)。

    我们会把这个技术应用于生成模型,如文字转语音系统和深度强化学习应用。进一步地,损失放大因子的选择会自动化,来简化混合精度的训练。损失放大因子会根据监控到的权值梯度,动态增大或者减小来防止溢出。

  • 相关阅读:
    在Visual Studio中怎样快速添加代码段
    18个不常见的C#关键字,您使用过几个?
    C# 非常好用的组元Tuple
    C# List根据另一个List集合或数组排序
    Expression 核心操作符、表达式、操作方法
    如何避免频繁创建临时对象
    C# 23种设计模式
    C# 23种设计模式
    Api Cloud官方日期类型转换
    sql server 保留小数(续A)
  • 原文地址:https://www.cnblogs.com/yangwenhuan/p/11337203.html
Copyright © 2011-2022 走看看