zoukankan      html  css  js  c++  java
  • A100 Tensor核心可加速HPC

    A100 Tensor核心可加速HPC 

    HPC应用程序的性能需求正在迅速增长。众多科学研究领域的许多应用程序都依赖于双精度(FP64)计算。 

    为了满足HPC计算快速增长的计算需求,A100 GPU支持Tensor操作,以加速符合IEEE的FP64计算,提供的FP64性能是NVIDIA Tesla V100 GPU的2.5倍。

    A100上新的双精度矩阵乘法加法指令替换了V100上的八条DFMA指令,从而减少了指令提取,调度开销,寄存器读取,数据路径功率和共享存储器读取带宽。

    A100中的每个SM总共计算64个FP64 FMA操作/时钟(或128个FP64操作/时钟),这是Tesla V100吞吐量的两倍。具有108个SM的A100 Tensor Core GPU的FP64峰值吞吐量为19.5 TFLOPS,是Tesla V100的2.5倍。

    借助对这些新格式的支持,A100 Tensor Core可用于加速HPC工作负载,迭代求解器和各种新的AI算法。

     

    V100

    A100

    A100稀疏度1 

    A100加速

    A100稀疏加速

    A100 FP16和 V100 FP16 

    31.4 TFLOPS

    78 TFLOPS

    不适用

    2.5倍

    不适用

    A100 FP16 TC和 V100 FP16 TC

    125 TFLOPS

    312 TFLOPS

    624 TFLOPS

    2.5倍

    5倍

    A100 BF16 TC和V100 FP16 TC

    125 TFLOPS

    312 TFLOPS

    624 TFLOPS

    2.5倍

    5倍

    A100 FP32和 V100 FP32

    15.7 TFLOPS

    19.5 TFLOPS

    不适用

    1.25倍

    不适用

    A100 TF32 TC和 V100 FP32 

    15.7 TFLOPS

    156 TFLOPS

    312 TFLOPS

    10倍

    20倍

    A100 FP64和 V100 FP64

    7.8 TFLOPS

    9.7 TFLOPS

    不适用

    1.25倍

    不适用

    A100 FP64 TC和 V100 FP64

    7.8 TFLOPS

    19.5 TFLOPS

    不适用

    2.5倍

    不适用

    A100 INT8 TC与 V100 INT8

    62 TOPS

    624 TOPS

    1248 TOPS

    10倍

    20倍

    A100 INT4 TC

    不适用

    1248 TOPS

    2496 TOPS

    不适用

    不适用

    A100二进制TC

    不适用

    4992 TOPS

    不适用

    不适用

    不适用

    1. A100V100上的提速(TC = Tensor CoreGPU以各自的时钟速度)。
    1)使用新的稀疏性功能实现有效的TOPS / TFLOPS

     

    A100引入了细粒度的结构化稀疏性 

    借助A100 GPU,NVIDIA引入了细粒度的结构稀疏性,这是一种新颖的方法,可将深度神经网络的计算吞吐量提高一倍。 

    深度学习中可能会出现稀疏性,因为各个权重的重要性会在学习过程中演变,并且到网络训练结束时,只有权重的一个子集才具有确定学习输出的有意义的目的。不再需要剩余的权重。

    细粒度的结构化稀疏性对稀疏性模式施加了约束,从而使硬件更有效地执行输入操作数的必要对齐。因为深度学习网络能够在训练过程中根据训练反馈调整权重,所以NVIDIA工程师通常发现结构约束不会影响训练网络进行推理的准确性。这使得可以稀疏地推断加速。

    对于训练加速,需要在过程的早期引入稀疏性以提供性能优势,并且在不损失准确性的情况下进行训练加速的方法是一个活跃的研究领域。

    稀疏矩阵定义

    通过新的2:4稀疏矩阵定义强制执行结构,该定义在每个四项向量中允许两个非零值。A100在行上支持2:4的结构化稀疏性,如图1所示。 

    由于矩阵的定义明确,可以对其进行有效压缩,并将内存存储和带宽减少近2倍。 

     1. A100细粒度的结构化稀疏修剪训练了权重,其中有2分之4的非零模式,然后是用于调整非零权重的简单通用方法。权重经过压缩,可将数据占用空间和带宽减少2倍,并且A100稀疏Tensor Core通过跳过零将数学吞吐量提高了一倍。

    NVIDIA开发了一种简单而通用的配方,用于使用这种2:4结构化的稀疏模式来稀疏深度神经网络进行推理 。首先使用密集权重对网络进行训练,然后应用细粒度的结构化修剪,最后使用其它训练步骤对剩余的非零权重进行微调。基于跨视觉,目标检测,分割,自然语言建模和翻译的数十个网络的评估,该方法几乎不会导致推理准确性的损失。  

    A100 Tensor Core GPU包括新的Sparse Tensor Core指令,这些指令会跳过具有零值的计算,从而使Tensor Core计算吞吐量翻倍。图1示出了张量核心是如何使用压缩元数据(非零索引),以配合适当选择激活压缩权重输入到张量核心点积计算。

    结合了L1数据缓存和共享内存

    NVIDIA在L1数据高速缓存和共享内存子系统体系结构中首次引入NVIDIA Tesla V100,在显著提高性能的同时,还简化了编程并减少了达到或接近峰值应用程序性能所需的调整。将数据缓存和共享内存功能组合到单个内存块中,可为两种类型的内存访问提供最佳的整体性能。 

    L1数据高速缓存和共享内存的总容量在A100中为192 KB / SM,而在V100中为128 KB / SM。 

    同时执行FP32和INT32操作

    与V100和Turing GPU相似,A100 SM还包括独立的FP32和INT32内核,允许以全吞吐量同时执行FP32和INT32操作,同时还提高了指令发布的吞吐量。

    许多应用程序具有内部循环,这些循环执行指针算术(整数存储器地址计算),并结合浮点计算,这得益于同时执行FP32和INT32指令。流水线循环的每次迭代都可以更新地址(INT32指针算法)并为下一次迭代加载数据,同时在FP32中处理当前迭代。

    A100 HBM2 DRAM子系统 

    随着HPC,AI和分析数据集的不断增长,寻找解决方案的问题变得越来越复杂,必须具有更大的GPU内存容量和更高的内存带宽。

    Tesla P100是世界上第一个支持高带宽HBM2内存技术的GPU架构,而Tesla V100提供了更快,更高效和更高容量的HBM2实现。A100再次提高了HBM2的性能和容量标准。 

    HBM2内存由与GPU处于同一物理封装上的内存堆栈组成,与传统的GDDR5 / 6内存设计相比,可节省大量功率和面积,从而可在系统中安装更多GPU。

    A100 GPU的SXM4型电路板上包括40 GB的快速HBM2 DRAM内存。存储器被组织为五个活动的HBM2堆栈,每个堆栈具有八个内存管芯。A100 HBM2的数据速率为1215 MHz(DDR),可提供1555 GB /秒的内存带宽,比V100内存带宽高1.7倍以上。 

    ECC内存弹性

    A100 HBM2内存子系统支持单错误纠正双错误检测(SECDED)错误纠正代码(ECC)以保护数据。ECC为对数据损坏敏感的计算应用程序提供了更高的可靠性。在GPU处理大型数据集或长时间运行应用程序的大规模集群计算环境中,这一点尤其重要。A100中的其它关键存储器结构也受到SECDED ECC的保护,包括L2缓存和L1缓存以及所有SM内的寄存器文件。

    A100 L2快取

    A100 GPU包含40 MB的L2缓存,比V100 L2缓存大6.7倍.L2缓存分为两个分区,以实现更高的带宽和更低的延迟内存访问。每个L2分区都将本地化和缓存数据,以供直接连接到该分区的GPC中的SM进行内存访问。这种结构使A100的带宽增加了V100的2.3倍。硬件缓存一致性在整个GPU上维护CUDA编程模型,并且应用程序自动利用新L2缓存的带宽和延迟优势。

    L2缓存是GPC和SM的共享资源,位于GPC之外。A100 L2缓存大小的大幅增加显着改善了许多HPC和AI工作负载的性能,因为现在可以缓存和重复访问数据集和模型的大部分,而读取和写入HBM2内存的速度要快得多。受DRAM带宽限制的某些工作负载将受益于更大的L2缓存,例如使用小批量的深度神经网络。 

    为了优化容量利用率,NVIDIA Ampere体系结构提供了L2缓存驻留控件,可管理要保留或从缓存中逐出的数据。可以预留一部分L2缓存用于持久性数据访问。

    例如,对于DL推理工作负载,乒乓缓冲区可以持久地缓存在L2中,以实现更快的数据访问,同时还避免了回写到DRAM。对于生产者-消费者链,例如在DL训练中发现的链,L2缓存控件可以优化跨写到读数据依赖项的缓存。在LSTM网络中,循环权重可以优先在L2中缓存和重用。

    NVIDIA Ampere体系结构增加了计算数据压缩功能,以加速非结构化稀疏性和其它可压缩数据模式。L2中的压缩使DRAM读/写带宽提高了4倍,L2读带宽提高了4倍,L2容量提高了2倍。 

    数据中心GPU

    NVIDIA Tesla P100

    NVIDIA Tesla V100

    NVIDIA A100

    GPU代号

    GP100

    GV100

    GA100

    GPU架构

    NVIDIA Pascal

    NVIDIA Volta

    NVIDIA安培

    GPU板尺寸 

    SXM

    SXM2

    SXM4

    短信

    56

    80

    108

    TPC

    28

    40

    54

    FP32核心/ SM

    64

    64

    64

    FP32核心/ GPU

    3584

    5120

    6912

    FP64核心/ SM

    32

    32

    32

    FP64核心/ GPU

    1792

    2560

    3456

    INT32内核/ SM

    不适用

    64

    64

    INT32核心/ GPU

    不适用

    5120

    6912

    张量芯/ SM

    不适用

    8

    2

    张量核心/ GPU

    不适用

    640

    432

    GPU加速时钟

    1480兆赫

    1530兆赫

    1410兆赫

    FP16的峰值FP16张量TFLOPS累计1

    不适用

    125

    312/624 3

    带FP32的峰值FP16张量TFLOPS累计1

    不适用

    125

    312/624 3

    带有FP32的BF16张量TFLOPS峰值累加1

    不适用

    不适用

    312/624 3

    峰值TF32张量TFLOPS 1

    不适用

    不适用

    156/312 3

    峰值FP64 Tensor TFLOPS 1

    不适用

    不适用

    19.5

    峰值INT8张量TOPS 1

    不适用

    不适用

    624/1248 3

    峰值INT4张量TOPS 1

    不适用

    不适用

    1248/2496 3

    峰值FP16 TFLOPS 1

    21.2

    31.4

    78

    峰值BF16 TFLOPS 1

    不适用

    不适用

    39

    峰值FP32 TFLOPS 1

    10.6

    15.7

    19.5

    峰值FP64 TFLOPS 1

    5.3

    7.8

    9.7

    峰值INT32 TOPS 1,4

    不适用

    15.7

    19.5

    纹理单位

    224

    320

    432

    记忆体介面

    4096位HBM2

    4096位HBM2

    5120位HBM2

    记忆体大小

    16 GB

    32 GB / 16 GB

    40 GB

    内存数据速率

    703 MHz DDR

    877.5 MHz DDR

    1215 MHz DDR

    记忆体频宽

    720 GB /秒

    900 GB /秒

    1555 GB /秒

    L2快取大小

    4096 KB

    6144 KB

    40960 KB

    共享内存大小/ SM

    64 KB

    最多可配置96 KB

    最多可配置164 KB

    注册文件大小/ SM

    256 KB

    256 KB

    256 KB

    注册文件大小/ GPU

    14336 KB

    20480 KB

    27648 KB

    技术开发计划

    300瓦

    300瓦

    400瓦

    晶体管

    153亿

    211亿

    542亿

    GPU晶粒尺寸

    610平方毫米

    815平方毫米

    826平方毫米

    台积电制造流程

    16 nm FinFET +

    12 nm FFN

    7纳米N7

    表2. NVIDIA数据中心GPU的比较。
    1)峰值速率基于GPU增强时钟。
    2)A100 SM中的四个Tensor核心具有GV100 SM中八个Tensor核心的原始FMA计算能力的2倍。
    3)使用新的稀疏功能有效的TOPS / TFLOPS。
    4)TOPS =基于IMAD的整数数学

     

    注意:由于A100 Tensor Core GPU设计为安装在高性能服务器和数据中心机架中以为AI和HPC计算工作量提供动力,因此它不包括显示连接器,用于光线追踪加速的NVIDIA RT Core或NVENC编码器。

  • 相关阅读:
    北航2020OO第一单元博客作业
    OO第四单元总结
    OO第三单元总结
    OO第二单元总结
    OO第一单元总结
    北航2020年OO第四单元总结
    北航2020年OO第三单元总结
    北航2020年OO第二单元总结
    北航2020年OO第一单元总结
    面向对象第四单元总结
  • 原文地址:https://www.cnblogs.com/wujianming-110117/p/14211091.html
Copyright © 2011-2022 走看看