zoukankan      html  css  js  c++  java
  • 寒武纪思元290芯片和MLU290-M5卡

    引言:

    寒武纪的首个训练芯片:思元290
    TSMC 7nm工艺,MLUv2架构;
    有64个MLU Core,内存使用HBM2的内存,互联方面支持MLU-Link的互联技术;
    使用思元290做卡是MLU290,本次发布的是MLU290-M5形态的,是Mazzine形态的卡;

    芯片计算性能:

    使用MLUv2架构;含有64个MLU Core;
    INT4的性能是1024TFLOPS
    INT8的性能是512TFLOPS
    INT16的性能是256TFLOPS
    支持vMLU的数量是4个;
    对标的话NVIDIA A100最大是7个MIG;

    芯片内存性能:

    32GB HBM2内存
    应该是4个Stack,总的内存的位宽是4096bit;
    内存的带宽是:1228GB/s
    那么MemFreq就是:大约是1200Mhz,因为1200MHz*2DDR*4096bit的位宽/8/1000=1228.8MHz;


    芯片互联性能:

    Host端,也就是GPU到CPU的是X16 PCIe Gen 4,双向带宽是64GB/s
    Device段,也就是GPU到GPU之间的互联,使用的是MLU-Link
    MLU-Link波特率是50Gbps,并且每个GPU有6个Port/Link,每个Port有8个Lane,合计48个Lane;
    总的带宽是:50Gbps*2Direction*6Link或者Port*8Lans/8=600GB/s;

    相对的NVLink 3.0,有12个Port/Link,每个Port有4个Lane,合计也是48个Lane;并且波特率也是50Gbps,
    因此MLU-Link的贷款和NVLink3.0的总体上是一致的;

    卡的其他参数

    TDP是350W;
    OAM Open Accelerator Module的形态,需要54V的供电;
    包含散热器的卡的总重量是1470g;

    卡的横向扩展

    4个MLU290-M5可以组成1个玄思10000的2U的节点/系统;
    黑色是节点内的Link互联,蓝色用于节点之间的互联;
    4个节点组成POD16
    8个节点组成POD32


    官网地址:http://www.cambricon.com/index.php?m=content&c=index&a=lists&catid=340



    万事走心 精益求美


  • 相关阅读:
    tile38 复制配置
    The Guardian’s Migration from MongoDB to PostgreSQL on Amazon RDS
    tile38 一款开源的geo 数据库
    sqler sql 转rest api 的docker 镜像构建(续)使用源码编译
    sqler sql 转rest api javascript 试用
    sqler sql 转rest api redis 接口使用
    sqler sql 转rest api 的docker image
    sqler sql 转rest api 的工具试用
    apache geode 试用
    benthos v1 的一些新功能
  • 原文地址:https://www.cnblogs.com/kongchung/p/14746622.html
Copyright © 2011-2022 走看看