稀疏性如何为AI推理增加难度
NVIDIA Ampere架构使数学运算加倍,以加速对各种神经网络的处理。
如果曾经玩过游戏Jenga,那么将有一些AI稀疏感。
玩家将木制积木交叉成一列。然后,每个玩家轮流小心地移开一个障碍物,而不会倾倒立柱。
它从一开始就很容易,但是变得越来越毛茸茸,直到失败的玩家拔出一个障碍物,导致塔楼坠毁。
多年来,研究人员一直在努力地利用数字打积木,以利用稀疏性来加速AI。他们尝试从神经网络中提取尽可能多的不需要的参数-而不破坏AI的超高精度。
目标是减少深度学习所需的矩阵乘法堆,从而缩短达到良好结果的时间。到目前为止,还没有大赢家。
迄今为止,研究人员已经尝试了多种技术来提取神经网络中多达95%的权重。但是随后,他们花了比他们节省的时间更多的时间,不得不采取激进的步骤来弥补简化模型的准确性。适用于一种模型的步骤不适用于其他模型。
数字稀疏
NVIDIA安培架构引入了第三代张量磁芯在NVIDIA A100的GPU称取在网络权细粒度稀疏的优点。提供了高达2倍的密集数学最大吞吐量,而不会牺牲深度学习的核心矩阵乘法累加作业的准确性。
测试表明,这种稀疏方法在许多AI任务(包括图像分类,目标检测和语言翻译)中使用密集数学来维持方法的准确性。它也已经在卷积神经网络和递归神经网络以及基于注意力的转换器上进行了测试。
A100打包了稀疏矩阵以加速AI推理任务。
内部数学运算速度的提高对应用程序级别具有重大影响。使用稀疏性,A100 GPU可以运行BERT(来自转换的双向编码器表示),这是用于自然语言处理的最新模型,比密集型数学要快50%。
NVIDIA Ampere架构利用了神经网络中较小值的普遍性,从而使尽可能广泛的AI应用程序受益。具体来说,定义了一种训练神经网络的方法,该方法可以去除一半的权重,即所谓的50%稀疏度。
当做对时,少即是多
一些研究人员使用粗粒度剪枝技术,这些技术会从神经网络层中删除整个通道,从而经常降低网络的准确性。NVIDIA Ampere架构中的方法采用结构化的稀疏性和细粒度的剪枝技术,不会明显降低准确性,用户在重新训练模型时可以进行验证。
适当剪枝网络后,A100 GPU将自动完成其余工作。
A100 GPU中的Tensor Core有效压缩稀疏矩阵以启用适当的密集数学。跳过矩阵中实际上是零值位置的位置会减少计算量,节省功耗和时间。压缩稀疏矩阵还可以减少宝贵的内存和带宽的使用。