GPU编程和流式多处理器

zoukankan html css js c++ java

GPU编程和流式多处理器
GPU编程和流式多处理器

流式多处理器（SM）是运行CUDA内核的GPU的一部分。本章重点介绍SM的指令集功能。

流式多处理器（SM）是运行我们的CUDA内核的GPU的一部分。每个SM包含以下内容。
- 可以在执行线程之间划分的数千个寄存器
- 几个缓存：
  
  –共享内存，用于线程之间的快速数据交换
  
  –恒定高速缓存，用于快速广播恒定内存中的读取
  
  –纹理缓存，以聚合纹理内存的带宽
  
  – L1缓存，可减少对本地或全局内存的延迟
- Warp调度程序可以快速在线程之间切换上下文，并向准备执行的Warp发出指令
- 用于整数和浮点运算的执行核心：
  
  –整数和单精度浮点运算
  
  –双精度浮点
  
  –用于单精度浮点先验功能的特殊功能单元（SFU）
存在许多寄存器，以及硬件可以如此高效地在线程之间进行上下文切换的原因，可以最大程度地提高硬件的吞吐量。GPU被设计为具有足够的状态，以覆盖执行等待时间和数百个时钟周期的存储等待时间，执行读取指令后，设备存储器中的数据可能需要数百个时钟周期才能到达。

SM是通用处理器，设计与CPU中的执行内核有很大不同：目标时钟频率低得多；支持指令级并行性，但不支持分支预测或推测性执行；如果根本没有缓存，则缓存较少。对于合适的工作负载，GPU中强大的计算能力足以弥补这些缺点。

自2006年推出首款支持CUDA的硬件以来，SM的设计一直在迅速发展，其代号为Tesla，Fermi和Kepler的三个主要修订版本。开发人员可以通过调用cudaGetDeviceProperties（）并检查cudaDeviceProp.major和cudaDeviceProp.minor或通过调用驱动程序API函数cuDeviceComputeCapability（）来查询计算能力。计算能力1.x，2.x和3.x分别对应于Tesla类，Fermi类和Kepler类硬件。表8.1总结了每一代SM硬件中添加的功能。

表1 SM功能

以后会显示不同SM的框图。CUDA内核可以执行整数和单精度浮点指令。一个双精度单元实现双精度支持（如果可用）；和特殊功能单元实现倒数，倒数平方根，正弦/余弦和对数/指数函数。当执行指令所需的资源可用时，warp调度程序会将指令调度到这些执行单元。

本文重点介绍SM的指令集功能。因此，有时会引用“ SASS”指令，即ptxas或CUDA驱动程序将中间PTX代码转换成的本机指令。开发人员无法直接编写SASS代码；相反，NVIDIA通过cuobjdump实用程序使这些说明对开发人员可见，可以通过检查编译的微代码来指导其源代码的优化。

1. 存储Memory

1.1. 寄存器

每个SM包含数千个32位寄存器，这些内核在启动内核时指定给线程分配。寄存器是SM中最快，最丰富的内存。例如，开普勒类（SM 3.0）SMX包含65,536个寄存器或256K，而纹理缓存仅为48K。

CUDA寄存器可以包含整数或浮点数据。对于能够执行双精度算术（SM 1.3和更高版本）的硬件，操作数包含在偶数值寄存器对中。在SM 2.0和更高版本的硬件上，寄存器对也可以保存64位地址。

CUDA硬件还支持更广泛的内存事务：内置int2 / float2和int4 / float4数据类型分别位于对齐的寄存器对或四元组中，可使用单个64位或128位宽的加载或存储来读取或写入。一旦进入寄存器，就可以将各个数据元素称为.x / .y（对于int2 / float2）或.x / .y / .z / .w（对于int4 / float4）。

通过指定命令行选项--ptxas-options --verbose，开发人员可以使nvcc报告内核使用的寄存器数。内核使用的寄存器数量会影响SM中可容纳的线程数量，通常必须仔细调整，以获得最佳性能。可以使用--ptxas-options --maxregcount N指定用于编译的最大寄存器数。

注册采样Register Aliasing

寄存器可以保存浮点或整数数据，某些内在函数仅用于迫使编译器更改其变量视图。__int_as_float（）和__float_as_int（）内部函数，导致32位整数和单精度浮点之间“改变性能”的变量。
float__int_as_float（int i）;

int __float_as_int（float f）;
__double2loint（） ，__double2hiint（） ，和__hiloint2double（）内部函数类似原因寄存器来改变个性（通常就地）。__double_as_longlong（）和__longlong_as_double（）就地强制寄存器对；__double2loint（）和__double2hiint（）分别返回输入操作数的最低和最高32位；__hiloint2double（）从高半部分和低半部分中构造一个双精度型。
int double2loint（double d）;

int double2hiint（double d）;

int hiloint2double（int hi，int lo）;

double long_as_double（long long int i）;

long long int __double_as_longlong（double d）;
1.2. 本地Local Memory

本地存储器用于溢出寄存器，还用于存储已索引且无法在编译时计算其索引的局部变量。本地内存由与全局内存相同的设备内存池支持，因此它具有与Fermi和更高版本的硬件上的L1和L2缓存层次结构相同的延迟特性和优势。本地内存的寻址方式是自动合并内存事务。硬件包括加载和存储本地内存的特殊说明：SASS变体是Tesla的LLD / LST和Fermi和Kepler的LDL / STL。

1.3. 全局Global Memory

SM可以使用GLD / GST指令（在Tesla上）和LD / ST指令（在Fermi和Kepler上）读取或写入全局内存。开发人员可以使用标准的C运算符来计算和取消引用地址，包括指针算法和取消引用运算符*，[]和->。对64位或128位内置数据类型（int2 / float2 / int4 / float4）进行操作，自动使编译器发出64位或128位加载和存储指令。通过合并内存事务可实现最大的内存性能。

特斯拉级硬件（SM 1.x）使用特殊的地址寄存器来保存指针。后来的硬件实现了一种加载/存储架构，该架构使用相同的寄存器文件来存储指针。整数和浮点值；以及用于恒定内存，共享内存和全局内存的相同地址空间。^1个

费米级硬件包括旧硬件不具备的一些功能。
- 通过“宽”加载/存储指令支持64位寻址，其中地址保存在偶数寄存器对中。在32位主机平台上不支持64位寻址。在64位主机平台上，将自动启用64位寻址。结果，针对为32位和64位主机平台编译的，相同内核生成的代码，可能具有不同的寄存器计数和性能。
- L1缓存的大小可以配置为16K或48K。²（Kepler添加了将缓存拆分为32K L1 / 32K共享功能。）加载指令可以包括可缓存性提示（告诉硬件将读取的内容拖入L1或绕过L1，并将数据仅保留在L2中）。可通过嵌入式PTX或通过命令行选项–X ptxas –dlcm = ca（默认设置在L1和L2中缓存）或–X ptxas –dlcm = cg（仅在L2中缓存）访问这些文件。
即使多个GPU线程在同一内存位置上运行，原子操作（或仅仅是“原子”）也可以正常工作地更新内存位置。在操作期间，硬件会在内存位置强制执行互斥。由于不能保证操作顺序，因此通常支持的运算符是关联的。³

Atomics首先可用于SM 1.1和更高版本的全局内存以及SM 1.2和更高版本的共享内存。但是，在开普勒一代硬件出现之前，全局内存原子太慢而无法使用。

当通过--gpu-architecture为nvcc指定了适当的体系结构时，表2中汇总的全局原子内在函数将自动变为可用。所有这些内在函数都可以对32位整数进行操作。SM 1.2中添加了对atomicAdd（），atomicExch（）和atomicCAS（）的64位支持。在SM 2.0中添加了32位浮点值（float）的atomicAdd（）。在SM 3.5中添加了对atomicMin（），atomicMax（），atomicAnd（），atomicOr（）和atomicXor（）的64位支持。

表2原子操作

注意

由于原子操作是使用GPU的集成内存控制器中的硬件实现的，无法在PCI Express总线上运行，无法在与主机内存或对等内存相对应的设备内存指针上正确运行。

在硬件级别，原子有两种形式：原子操作返回执行算子之前在指定内存位置的值，以及归约操作，开发人员可以在内存位置“触发并忘记”而忽略返回值值。由于如果不需要返回旧值，则硬件可以更有效地执行操作，编译器将检测是否使用了返回值，如果未使用，则发出不同的指令。例如，在SM 2.0中，指令分别称为ATOM和RED。

1.4. 恒定内存Memory

常量内存驻留在设备内存中，但由另一个只读缓存支持，该缓存经过优化，可以将读取请求的结果广播，到均引用同一内存位置的线程。每个SM均包含一个经过延迟优化的小型缓存，用于处理这些读取请求。将内存（和缓存）设置为只读可简化缓存管理，因为硬件无需实施回写策略来处理已更新的内存。

SM 2.x和后续硬件包括针对内存的特殊优化，该优化未表示为常量，但编译器已将其标识为（1）只读和（2）其地址不依赖于块或线程ID。“均匀加载”（LDU）指令使用恒定的缓存层次结构读取内存，并将数据广播到线程。

1.5. 共享内存

共享内存非常快，是SM中的片上内存，线程可以将其用于线程块内的数据交换。由于它是每个SM资源，因此共享内存的使用会影响占用率，即SM可以保留的warp数量。SM使用特殊指令加载和存储共享内存：SM 1.x上为G2R / R2G，SM 2.x及更高版本上为LDS / STS。

共享内存安排为交错的存储体，通常针对32位访问进行了优化。如果经线中有多个线程引用同一存储体，则会发生存储体冲突，并且硬件必须连续处理内存请求，直到为所有请求提供服务为止。为了避免存储区冲突，应用程序将基于线程ID以交错模式访问共享内存，如下所示。

extern __shared__ float shared[];

float data = shared[BaseIndex + threadIdx.x];

从相同的32位共享内存位置读取扭曲中的所有线程也很快。硬件包括广播机制以针对这种情况进行优化。写入同一存储区的操作会由硬件进行序列化，降低性能。写入同一地址会导致争用情况，应避免。

对于2D访问模式（例如图像处理内核中的像素图块），最好填充共享内存分配，以便内核可以引用相邻行，而不会引起存储体冲突。SM 2.x和后续硬件具有32个存储区，其中每个存储区可供2个图块使用，其中同一warp中的线程可以按行访问数据，这是将图块大小填充为33个32位字的倍数的好策略。

在SM 1.x硬件上，共享内存的大小约为16K。在更高版本的硬件上，总共有64K的L1高速缓存，可以配置为16K或48K共享内存，其余部分用作L1高速缓存。

在过去的几代硬件中，NVIDIA改进了硬件对除32位以外的操作数大小的处理。在SM 1.x硬件上，来自同一存储区的8位和16位读取导致存储区冲突，而SM 2.x和更高版本的硬件可以从同一存储区广播中，任何大小的读取。同样，共享内存中的64位操作数（例如double）比SM 1.x上的32位操作数慢得多，以至于开发人员有时不得不求助于将数据分别存储为上下半部分。SM 3.x硬件为主要在共享内存中使用64位操作数的内核添加了一项新功能：将存储体大小增加到64位的模式。

共享内存中的原子算子

SM 1.2添加了在共享内存中执行原子操作的功能。全局内存与使用单个指令（取决于GATOM或GRED，取决于是否使用返回值）来实现原子的全局存储器不同，共享内存原子是通过显式的锁定/解锁语义实现的，编译器发出的代码会导致每个线程循环这些锁定操作，直到线程执行其原子操作为止。

清单1将源代码提供给atomic32Shared.cu，该程序专门用于编译以突出显示共享内存原子的代码生成。清单2显示了为SM 2.0生成的最终微代码。注意，LDSLK（与锁共享负载）指令如何返回谓词，该谓词说明是否获取了锁，确定了要执行更新的代码，并且代码循环运行，直到获取了锁并执行了更新。

锁是按32位字执行的，锁的索引由共享内存地址的位2–9确定。注意避免争用，否则清单2中的循环最多可以迭代32次。

list1. atomic32Shared.cu

__global__ void

Return32( int *sum, int *out, const int *pIn )

{

    extern __shared__ int s[];

    s[threadIdx.x] = pIn[threadIdx.x];

    __syncthreads();

    (void) atomicAdd( &s[threadIdx.x], *pIn );

    __syncthreads();

    out[threadIdx.x] = s[threadIdx.x];

}

Listing 2. atomic32Shared.cubin (microcode compiled for SM 2.0)

code for sm_20

    Function : _Z8Return32PiS_PKi

/*0000*/     MOV R1, c [0x1] [0x100];

/*0008*/     S2R R0, SR_Tid_X;

/*0010*/     SHL R3, R0, 0x2;

/*0018*/     MOV R0, c [0x0] [0x28];

/*0020*/     IADD R2, R3, c [0x0] [0x28];

/*0028*/     IMAD.U32.U32 RZ, R0, R1, RZ;

/*0030*/     LD R2, [R2];

/*0038*/    STS [R3], R2;

/*0040*/     SSY 0x80;

/*0048*/     BAR.RED.POPC RZ, RZ;

/*0050*/     LD R0, [R0];

/*0058*/     LDSLK P0, R2, [R3];

/*0060*/     @P0 IADD R2, R2, R0;

/*0068*/     @P0 STSUL [R3], R2;

/*0070*/     @!P0 BRA 0x58;

/*0078*/     NOP.S CC.T;

/*0080*/     BAR.RED.POPC RZ, RZ;

/*0088*/     LDS R0, [R3];

/*0090*/     IADD R2, R3, c [0x0] [0x24];

/*0098*/     ST [R2], R0;

/*00a0*/     EXIT;

    ...................................

1.6. 障碍和连贯性

熟悉的__syncthreads（）内部函数会等待，直到继续执行线程块中的所有线程为止。需要保持线程块内共享内存的一致性。其他类似的内存屏障指令，也可以用于在更大范围的内存上执行某些排序，如表3所述。

表3内存屏障本质
人工智能芯片与自动驾驶
查看全文

相关阅读:
ASM:《X86汇编语言-从实模式到保护模式》第9章：实模式下中断机制和实时时钟
 iOS回顾笔记（07） -- UITableView的使用和性能优化
 appledoc导出iOS代码文档的使用和问题详解（干货篇）
iOS回顾笔记（06） -- AutoLayout从入门到精通
 iOS回顾笔记（05） -- 手把手教你封装一个广告轮播图框架
 iOS回顾笔记（04） -- UIScrollView的基本使用详解
 iOS回顾笔记（03） -- 自定义View的封装和xib文件的使用详解
 iOS回顾笔记（ 02 ） -- 由九宫格布局引发的一系列“惨案”
iOS回顾笔记（ 01 ）-- XIB和纯代码创建应用的对比
 博客搬家

原文地址：https://www.cnblogs.com/wujianming-110117/p/14233411.html

GPU编程和流式多处理器

表1 SM功能

1. 存储Memory

1.1. 寄存器

注册采样Register Aliasing

1.2. 本地Local Memory

1.3. 全局Global Memory

表2原子操作

1.4. 恒定内存Memory

1.5. 共享内存

共享内存中的原子算子

list1. `atomic32Shared.cu`

}

Listing 2. `atomic32Shared.cubin` (microcode compiled for SM 2.0)

...................................

1.6. 障碍和连贯性

表3内存屏障本质

GPU编程和流式多处理器

表1 SM功能

1. 存储Memory

1.1. 寄存器

注册采样Register Aliasing

1.2. 本地Local Memory

1.3. 全局Global Memory

表2原子操作

1.4. 恒定内存Memory

1.5. 共享内存

共享内存中的原子算子

list1. atomic32Shared.cu

}

Listing 2. atomic32Shared.cubin (microcode compiled for SM 2.0)

...................................

1.6. 障碍和连贯性

表3内存屏障本质

list1. `atomic32Shared.cu`

Listing 2. `atomic32Shared.cubin` (microcode compiled for SM 2.0)