zoukankan      html  css  js  c++  java
  • GPU上的基本线性代数

    GPU上的基本线性代数

    cuBLAS库提供了基本线性代数子例程(BLAS)的GPU加速实现。cuBLAS通过针对NVIDIA GPU进行了高度优化的嵌入式行业标准BLAS API来加速AI和HPC应用程序。cuBLAS库包含用于批处理操作,跨多个GPU的执行以及混合和低精度执行的扩展。使用cuBLAS,应用程序会自动受益于常规性能的改进和新的GPU架构。cuBLAS库包含在NVIDIA HPC SDKCUDA Toolkit中

    cuBLAS多GPU扩展

    cuBLASMg提供了最新的多GPU矩阵矩阵乘法,每个矩阵都可以2D块循环的方式在多个设备之间分配。cuBLASMg当前是CUDA数学库早期访问计划的一部分。

    cuBLAS性能

    cuBLAS库针对NVIDIA GPU的性能进行了高度优化,并利用张量内核加速了低精度和混合精度矩阵乘法。

    cuBLAS的主要功能

    • 全面支持所有152个标准BLAS例程
    • 支持半精度和整数矩阵乘法
    • 针对Volta和Turing张量Cores进行了优化的GEMM和GEMM扩展
    • 针对各种深度学习模型中使用的大小调整了GEMM性能
    • 支持CUDA流以进行并发操作

     

    人工智能芯片与自动驾驶
  • 相关阅读:
    同样的代码bug
    Vim中的Tab
    在Vue中同时使用过渡和动画
    在Vue中使用animate.css
    Vue中的css动画
    动态组件与v-once指令
    在Vue中使用插槽
    非父子组件间的传值
    给组件绑定原生事件
    组件参数校验和非props特性
  • 原文地址:https://www.cnblogs.com/wujianming-110117/p/14418957.html
Copyright © 2011-2022 走看看