硬件角度分析GPU

zoukankan html css js c++ java

硬件角度分析GPU

又看到一篇不错的讲解GPU硬件的帖子。特地摘抄下来。原文在这里（http://blog.csdn.net/bruce_0712/article/details/65442673）。感谢Bruce_0712的博客。

最近觉得不看官方的文档还是不行，有些在低计算版本的GPU里面显然的事情在高计算版本已经放宽了限制，应该看一下相应版本的GPU的要求。

从硬件角度分析，支持CUDA的NVIDIA 显卡，都是由多个multiprocessors 组成。每个 multiprocessor 里包含了8个stream processors，其组成是四个四个一组，也就是两组4D的处理器。每个 multiprocessor 还具有很多个（比如8192个）寄存器，一定的（比如16KB） share memory，以及 texture cache 和 constant cache。

在 CUDA 中，大部份基本的运算动作，都可以由 stream processor 进行。每个 stream processor 都包含一个 FMA（fused-multiply-add）单元，可以进行一个乘法和一个加法。比较复杂的运算则会需要比较长的时间。

在执行 CUDA 程序的时候，每个 stream processor 就是对应一个 thread。每个 multiprocessor 则对应一个 block。但是我们一个block往往有很大量的线程，之前我们用到了256个和1024个，远超一个 multiprocessor 所有的8个 stream processor 。

实际上，虽然一个 multiprocessor 只有八个 stream processor，但是由于 stream processor 进行各种运算都有 latency，更不用提内存存取的 latency，因此 CUDA 在执行程序的时候，是以warp 为单位。

比如一个 warp 里面有 32 个 threads，分成两组 16 threads 的 half-warp。由于 stream processor 的运算至少有 4 cycles 的 latency，因此对一个 4D 的stream processors 来说，一次至少执行 16 个 threads（即 half-warp）才能有效隐藏各种运算的 latency（如果你开始运算，再开一个线程，开始运算，再开一个线程，开始运算，再开一个线程开始运算，这时候第一个线程就ok了，第一个线程再开始运算，看起来就没有延迟了，每个处理单元上最少开4个可以达到隐藏延迟的目的，也就是4*4=16个线程）。也因此，线程数达到隐藏各种latency的程度后，之后数量的提升就没有太大的作用了。

查看全文

相关阅读:
【简单易懂】JPA概念解析：CascadeType（各种级联操作）详解
 [转] @JoinColumn 详解（javax.persistence.JoinColumn）
Feign二： @FeignClient 接口调用
 @Basic表示一个简单的属性懒加载，急加载
 RPC接口测试（一）什么是 RPC 框架
 Mysql中查询慢的 Sql语句的记录查找
 Mysql 查看连接数,状态最大并发数
 ntp时间一致对与设备心跳的影响
 jmeter常用四种断言
 jmeter BeanShell断言（四）

原文地址：https://www.cnblogs.com/cofludy/p/7128565.html