Hotchips 33 学习：Intel 数据中心计算卡Ponte Vecchio

zoukankan html css js c++ java

Hotchips 33 学习：Intel 数据中心计算卡Ponte Vecchio

Xe分为四个系列；
用模块化的方式组合：
Xe HPC的Xe Core：里面有8个Vector Engine和8个XMX Engine，以及8个深度脉动阵列；512KiB L1 Cache；
每个Vector Engine是512bit的，1个时钟周期可以完成512/32=16个FMA的操作；
因此1个Xe Core的IPC是8*16*2=256 FP32 FLPS；
每个Matrix Engine是4096bit的，IPC是上面的8倍，但是精度降低为TF32，因此IPC是2048TF32 FLOPS;
每个Xe Slice里面有16个Xe Core，另外还包含16个光线追踪的单元，和1个Hardware Context的模块；
每个Xe Stack是4个Xe Slice组成的；
每个Tile可以是一个2-Stack的形式互联起来；
8个2-Stack的卡可以通过Xe Link形成全互联，那么IPC是8卡*2-Stack*4Slick*16Core*256 FP32 FLOPS=8*32768 FP32 FLOPS；
这个codename是取自意大利佛罗伦萨最古老的桥梁大约AD1345年，可以类比赵州桥的知名度大约AD600年；
计算Tile是TSMC N5制造，这里每个Tile上8个Core，应该就是1个Tile就是1个slice的意思。
Base Tile是Intel N7制造，功能可能相当于是硅中介
Xe Link Tile是TSMC N7，每个Tile支持8个Links；
其次是形态，OAM形态的卡，支持四卡互联，也支持4卡+2CPU的小计算系统；
单卡的性能数据，计算性能，显存带宽，互联带宽；
上面计算得到单个2-Stack的Tile的IPC是32768FP 32 FPLOPS，假设基频是X，那么X=45TFLOPS/32768=1.37GHz；
假设内存采用的是8个1024bit位宽的HBM2e，那么假设基频是Y，Y=5TB/8/1024=0.61GHz；（？感觉不应该这么低）。
上图8个应该是HBM2e,另外两个竖着的可能是Xe Link，中间部分就是Tile组成的计算单元。
如果单卡的算力是45TFPOS，那么6卡应该是270FLOPS，两个CPU按照10计算吧。
1E=1000P=10^6TFLOPs，那么大概需要10^6/280=3500台服务器。

参考文献：
https://www.anandtech.com/show/16912/hot-chips-2021-live-blog-graphics-intel-amd-google-xilinx
https://www.intel.com/content/www/us/en/newsroom/resources/press-kit-architecture-day-2021.html

万事走心精益求美

查看全文

相关阅读:
JS・TextArea 字符串长度限制
 JavaScript面试题目集锦
 IE内存泄露分析
 JS动态添加样式和脚本
 取消锚(<a/>)点击后页面跳转的几种方法
 JS代码片段整理
 IE缓存问题的解决方法
 字符串与数字转换
 如何安装和配置Cassandra
字类和超类的转化问题

原文地址：https://www.cnblogs.com/kongchung/p/15201943.html