zoukankan html css js c++ java

A100 Tensor核心可加速HPC

HPC应用程序的性能需求正在迅速增长。众多科学研究领域的许多应用程序都依赖于双精度（FP64）计算。

为了满足HPC计算快速增长的计算需求，A100 GPU支持Tensor操作，以加速符合IEEE的FP64计算，提供的FP64性能是NVIDIA Tesla V100 GPU的2.5倍。

A100上新的双精度矩阵乘法加法指令替换了V100上的八条DFMA指令，从而减少了指令提取，调度开销，寄存器读取，数据路径功率和共享存储器读取带宽。

A100中的每个SM总共计算64个FP64 FMA操作/时钟（或128个FP64操作/时钟），这是Tesla V100吞吐量的两倍。具有108个SM的A100 Tensor Core GPU的FP64峰值吞吐量为19.5 TFLOPS，是Tesla V100的2.5倍。

借助对这些新格式的支持，A100 Tensor Core可用于加速HPC工作负载，迭代求解器和各种新的AI算法。

	V100	A100	A100稀疏度¹	A100加速	A100稀疏加速
A100 FP16和 V100 FP16	31.4 TFLOPS	78 TFLOPS	不适用	2.5倍	不适用
A100 FP16 TC和 V100 FP16 TC	125 TFLOPS	312 TFLOPS	624 TFLOPS	2.5倍	5倍
A100 BF16 TC和V100 FP16 TC	125 TFLOPS	312 TFLOPS	624 TFLOPS	2.5倍	5倍
A100 FP32和 V100 FP32	15.7 TFLOPS	19.5 TFLOPS	不适用	1.25倍	不适用
A100 TF32 TC和 V100 FP32	15.7 TFLOPS	156 TFLOPS	312 TFLOPS	10倍	20倍
A100 FP64和 V100 FP64	7.8 TFLOPS	9.7 TFLOPS	不适用	1.25倍	不适用
A100 FP64 TC和 V100 FP64	7.8 TFLOPS	19.5 TFLOPS	不适用	2.5倍	不适用
A100 INT8 TC与 V100 INT8	62 TOPS	624 TOPS	1248 TOPS	10倍	20倍
A100 INT4 TC	不适用	1248 TOPS	2496 TOPS	不适用	不适用
A100二进制TC	不适用	4992 TOPS	不适用	不适用	不适用

表1. A100在V100上的提速（TC = Tensor Core，GPU以各自的时钟速度）。
1）使用新的稀疏性功能实现有效的TOPS / TFLOPS

A100引入了细粒度的结构化稀疏性

借助A100 GPU，NVIDIA引入了细粒度的结构稀疏性，这是一种新颖的方法，可将深度神经网络的计算吞吐量提高一倍。

深度学习中可能会出现稀疏性，因为各个权重的重要性会在学习过程中演变，并且到网络训练结束时，只有权重的一个子集才具有确定学习输出的有意义的目的。不再需要剩余的权重。

细粒度的结构化稀疏性对稀疏性模式施加了约束，从而使硬件更有效地执行输入操作数的必要对齐。因为深度学习网络能够在训练过程中根据训练反馈调整权重，所以NVIDIA工程师通常发现结构约束不会影响训练网络进行推理的准确性。这使得可以稀疏地推断加速。

对于训练加速，需要在过程的早期引入稀疏性以提供性能优势，并且在不损失准确性的情况下进行训练加速的方法是一个活跃的研究领域。

稀疏矩阵定义

通过新的2：4稀疏矩阵定义强制执行结构，该定义在每个四项向量中允许两个非零值。A100在行上支持2：4的结构化稀疏性，如图1所示。

由于矩阵的定义明确，可以对其进行有效压缩，并将内存存储和带宽减少近2倍。

图1. A100细粒度的结构化稀疏修剪训练了权重，其中有2分之4的非零模式，然后是用于调整非零权重的简单通用方法。权重经过压缩，可将数据占用空间和带宽减少2倍，并且A100稀疏Tensor Core通过跳过零将数学吞吐量提高了一倍。

NVIDIA开发了一种简单而通用的配方，用于使用这种2：4结构化的稀疏模式来稀疏深度神经网络进行推理。首先使用密集权重对网络进行训练，然后应用细粒度的结构化修剪，最后使用其它训练步骤对剩余的非零权重进行微调。基于跨视觉，目标检测，分割，自然语言建模和翻译的数十个网络的评估，该方法几乎不会导致推理准确性的损失。

A100 Tensor Core GPU包括新的Sparse Tensor Core指令，这些指令会跳过具有零值的计算，从而使Tensor Core计算吞吐量翻倍。图1示出了张量核心是如何使用压缩元数据（非零索引），以配合适当选择激活压缩权重输入到张量核心点积计算。

结合了L1数据缓存和共享内存

NVIDIA在L1数据高速缓存和共享内存子系统体系结构中首次引入NVIDIA Tesla V100，在显著提高性能的同时，还简化了编程并减少了达到或接近峰值应用程序性能所需的调整。将数据缓存和共享内存功能组合到单个内存块中，可为两种类型的内存访问提供最佳的整体性能。

L1数据高速缓存和共享内存的总容量在A100中为192 KB / SM，而在V100中为128 KB / SM。

同时执行FP32和INT32操作

与V100和Turing GPU相似，A100 SM还包括独立的FP32和INT32内核，允许以全吞吐量同时执行FP32和INT32操作，同时还提高了指令发布的吞吐量。

许多应用程序具有内部循环，这些循环执行指针算术（整数存储器地址计算），并结合浮点计算，这得益于同时执行FP32和INT32指令。流水线循环的每次迭代都可以更新地址（INT32指针算法）并为下一次迭代加载数据，同时在FP32中处理当前迭代。

A100 HBM2 DRAM子系统

随着HPC，AI和分析数据集的不断增长，寻找解决方案的问题变得越来越复杂，必须具有更大的GPU内存容量和更高的内存带宽。

Tesla P100是世界上第一个支持高带宽HBM2内存技术的GPU架构，而Tesla V100提供了更快，更高效和更高容量的HBM2实现。A100再次提高了HBM2的性能和容量标准。

HBM2内存由与GPU处于同一物理封装上的内存堆栈组成，与传统的GDDR5 / 6内存设计相比，可节省大量功率和面积，从而可在系统中安装更多GPU。

A100 GPU的SXM4型电路板上包括40 GB的快速HBM2 DRAM内存。存储器被组织为五个活动的HBM2堆栈，每个堆栈具有八个内存管芯。A100 HBM2的数据速率为1215 MHz（DDR），可提供1555 GB /秒的内存带宽，比V100内存带宽高1.7倍以上。

ECC内存弹性

A100 HBM2内存子系统支持单错误纠正双错误检测（SECDED）错误纠正代码（ECC）以保护数据。ECC为对数据损坏敏感的计算应用程序提供了更高的可靠性。在GPU处理大型数据集或长时间运行应用程序的大规模集群计算环境中，这一点尤其重要。A100中的其它关键存储器结构也受到SECDED ECC的保护，包括L2缓存和L1缓存以及所有SM内的寄存器文件。

A100 L2快取

A100 GPU包含40 MB的L2缓存，比V100 L2缓存大6.7倍.L2缓存分为两个分区，以实现更高的带宽和更低的延迟内存访问。每个L2分区都将本地化和缓存数据，以供直接连接到该分区的GPC中的SM进行内存访问。这种结构使A100的带宽增加了V100的2.3倍。硬件缓存一致性在整个GPU上维护CUDA编程模型，并且应用程序自动利用新L2缓存的带宽和延迟优势。

L2缓存是GPC和SM的共享资源，位于GPC之外。A100 L2缓存大小的大幅增加显着改善了许多HPC和AI工作负载的性能，因为现在可以缓存和重复访问数据集和模型的大部分，而读取和写入HBM2内存的速度要快得多。受DRAM带宽限制的某些工作负载将受益于更大的L2缓存，例如使用小批量的深度神经网络。

为了优化容量利用率，NVIDIA Ampere体系结构提供了L2缓存驻留控件，可管理要保留或从缓存中逐出的数据。可以预留一部分L2缓存用于持久性数据访问。

例如，对于DL推理工作负载，乒乓缓冲区可以持久地缓存在L2中，以实现更快的数据访问，同时还避免了回写到DRAM。对于生产者-消费者链，例如在DL训练中发现的链，L2缓存控件可以优化跨写到读数据依赖项的缓存。在LSTM网络中，循环权重可以优先在L2中缓存和重用。

NVIDIA Ampere体系结构增加了计算数据压缩功能，以加速非结构化稀疏性和其它可压缩数据模式。L2中的压缩使DRAM读/写带宽提高了4倍，L2读带宽提高了4倍，L2容量提高了2倍。

数据中心GPU	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100
GPU代号	GP100	GV100	GA100
GPU架构	NVIDIA Pascal	NVIDIA Volta	NVIDIA安培
GPU板尺寸	SXM	SXM2	SXM4
短信	56	80	108
TPC	28	40	54
FP32核心/ SM	64	64	64
FP32核心/ GPU	3584	5120	6912
FP64核心/ SM	32	32	32
FP64核心/ GPU	1792	2560	3456
INT32内核/ SM	不适用	64	64
INT32核心/ GPU	不适用	5120	6912
张量芯/ SM	不适用	8	4 ²
张量核心/ GPU	不适用	640	432
GPU加速时钟	1480兆赫	1530兆赫	1410兆赫
FP16的峰值FP16张量TFLOPS累计¹	不适用	125	312/624 ³
带FP32的峰值FP16张量TFLOPS累计¹	不适用	125	312/624 ³
带有FP32的BF16张量TFLOPS峰值累加¹	不适用	不适用	312/624 ³
峰值TF32张量TFLOPS ¹	不适用	不适用	156/312 ³
峰值FP64 Tensor TFLOPS ¹	不适用	不适用	19.5
峰值INT8张量TOPS ¹	不适用	不适用	624/1248 ³
峰值INT4张量TOPS ¹	不适用	不适用	1248/2496 ³
峰值FP16 TFLOPS ¹	21.2	31.4	78
峰值BF16 TFLOPS ¹	不适用	不适用	39
峰值FP32 TFLOPS ¹	10.6	15.7	19.5
峰值FP64 TFLOPS ¹	5.3	7.8	9.7
峰值INT32 TOPS ^1,4	不适用	15.7	19.5
纹理单位	224	320	432
记忆体介面	4096位HBM2	4096位HBM2	5120位HBM2
记忆体大小	16 GB	32 GB / 16 GB	40 GB
内存数据速率	703 MHz DDR	877.5 MHz DDR	1215 MHz DDR
记忆体频宽	720 GB /秒	900 GB /秒	1555 GB /秒
L2快取大小	4096 KB	6144 KB	40960 KB
共享内存大小/ SM	64 KB	最多可配置96 KB	最多可配置164 KB
注册文件大小/ SM	256 KB	256 KB	256 KB
注册文件大小/ GPU	14336 KB	20480 KB	27648 KB
技术开发计划	300瓦	300瓦	400瓦
晶体管	153亿	211亿	542亿
GPU晶粒尺寸	610平方毫米	815平方毫米	826平方毫米
台积电制造流程	16 nm FinFET +	12 nm FFN	7纳米N7

表2. NVIDIA数据中心GPU的比较。
1）峰值速率基于GPU增强时钟。
2）A100 SM中的四个Tensor核心具有GV100 SM中八个Tensor核心的原始FMA计算能力的2倍。
3）使用新的稀疏功能有效的TOPS / TFLOPS。
4）TOPS =基于IMAD的整数数学

注意：由于A100 Tensor Core GPU设计为安装在高性能服务器和数据中心机架中以为AI和HPC计算工作量提供动力，因此它不包括显示连接器，用于光线追踪加速的NVIDIA RT Core或NVENC编码器。

查看全文

相关阅读:
如何在一个for语句中迭代多个对象(2.7)
yield列表反转 islice切片（2.6）
yield和生成器，通过斐波那契数列学习（2.5）
python实现线程池(2.4)
LOJ 3120: 洛谷 P5401: 「CTS2019 | CTSC2019」珍珠
 瞎写的理性愉悦：正整数幂和与伯努利数
 bzoj 3328: PYXFIB
LOJ 3119: 洛谷 P5400: 「CTS2019 | CTSC2019」随机立方体
 洛谷 P5345: 【XR-1】快乐肥宅
 LOJ 3089: 洛谷 P5319: 「BJOI2019」奥术神杖

原文地址：https://www.cnblogs.com/wujianming-110117/p/14211091.html