Understanding Habana Labs's GPU

Understanding Habana Labs's GPU

推理卡的Codename是GOYA

计算：

3类计算引擎，TPC,GEMM,DMA，第一个进行向量计算，是主要的引擎，第二个进行矩阵运算，第三个是DMA；

最高支持FP32的计算；

采用TSMC 16 nm制程；

应该是标卡的形态；FHFL-2S，TDP200W；

内存：

2 Channel DDR4 @2667MB/s，合计是16GB显存

那么内存带宽是：2*2667MB/s*64bit/8/1000=42GB/s；

并没有采用GDDR；

互联：

host interface是X16 PCIe Gen4

训练卡的codename是GAUDI

计算：

计算引擎和GOYA类似；

OAM形态的卡是350W TDP；

8个卡或者4个卡组成1个3U的Module；

PCie形态的卡，应该是双宽的，直接带以太网出端口；TDP是200W；并且只支持8个100GbE；

内存：

4 HBM Stack 合计是32GB @2GT/s

因此内存的带宽是：4Stack*2GT/s*1024bit/8/1000=1TB/s；

互联：

Host Interface也还是X16 PCie Gen4

但是片上集成了10个100Gb的Ethernet口，支持RoCE V2；（也可以用作20*50GbE），相当于集成了网络和计算，降低了网卡的成本，但是有一部分的接口是需要用于G2G的互联的；

内部还是20个56Gb的SerDes；

形态上是OAM 0.9 SPEC的；

互联接口的使用上例如，每个卡：7个100GbE用户和另外7个OAM实现All2All 互联，3个100GbE用于节点之间互联；相当于1个3U的module出8*3=24个100GbE的端口；

G2G带宽是700Gb=87.5GB/s，并不是非常快；

当然针对模型模型的场景，也可以将10个100GbE全部连出去，到TOR上，以提高模型worker之间的带宽；

Habana的Logo不错，这个是GAUDI Datasheet中总结的三个特性的icon也是非常不错的：

参考文献：

Hot Chip 2019 ：https://old.hotchips.org/hc31/HC31_1.14_HabanaLabs.Eitan_Medina.v9.pdf

GAYA 的Datasheet: https://habana.ai/wp-content/uploads/pdf/2020/Habana%20GOYA%20HL-100%20Datasheet.pdf

GAUDI的Datasheet: https://habana.ai/wp-content/uploads/pdf/2020/Habana%20GAUDI%20AI%20Training%20Card%20Datasheet.pdf

万事走心精益求美

查看全文

相关阅读:
我是如何折腾.NET Resx资源文件的当计算机中的资源已经足够多时，我们也要学会尽可能的借用
 当程序开发人员开始抛弃技术时，是否意味着噩梦的开始？抛弃了SQL Server 2000才发现客户的简单问题真的很难解决
 分享.NET ERP项目开发中应用到的重量级工具选择合适的工具和资源，做项目效率高而且规范程度高
 Management Console ERP项目开发辅助工具正确的方法+适当的工具使做项目的效率高而且问题少
 ERP系统管理员的工具箱推荐几款优秀的数据比较同步工具 Data Compare and Sync tool
亲自下载CSDN社区600万用户数据设计两条编程题目考验你的.NET编程基础
 知识管理系统Data Solution研发日记之十六保存服务器文档为本机PDF格式
 【转】好的学习方法
 iPhone开发学习笔记[7/50]在xcode里配置成功subversion
iPhone开发学习笔记[4/50]表视图的使用

原文地址：https://www.cnblogs.com/kongchung/p/14745663.html

Understanding Habana Labs's GPU

推理卡的Codename是GOYA

计算：

内存：

互联：

训练卡的codename是GAUDI

计算：

内存：

互联：