OpenCL 学习step by step (9) 灰度图Histogram计算(3)

zoukankan html css js c++ java

OpenCL 学习step by step (9) 灰度图Histogram计算(3)

     在OpenCL编程中，特别是基于GPU的opencl的编程，提高程序性能最主要的方法就是想法提高memory的利用率，它主要包括两方面的优化：一方面是提高global memory的合并读写效率，另一方面就是减少local memory的bank conflict。下面我们分析一下教程7中的代码，看看它的memory利用率如何？

    首先我们用amd的opencl profiler分析一下程序性能[最新的app sdk改用CodeXL进行性能分析]。

     下面我们来分析我们的kernel代码中memory操作：

     首先是shared memory的的初始化，我们知道shared memory是local memory，被一个workgroup中的所有thread，或者说work item共享。在amd硬件系统中，local memory是LDS，它通常是为32k或更高，分为32个bank，dword字节地址，每个bank 512个item，我们可以通过函数得到自己系统中的local memory数量：

cl_ulong DeviceLocalMemSize;
clGetDeviceInfo(device,
    CL_DEVICE_LOCAL_MEM_SIZE,
    sizeof(cl_ulong),
    &DeviceLocalMemSize,
    NULL);

LDS的示意图如下，对于每个bank，同时只能有一个读写请求，如果两个thread都读写bank1，那个必须串行访问，这就称作bank conflict。

kernel初始化local memory的代码如下：

//初始化共享内存
for(int i = 0; i < BIN_SIZE; ++i)
    sharedArray[localId * BIN_SIZE + i] = 0;

     在同一时间，thread0访问地址0(bank1),thread1,访问地址256，也在bank1，…,这样就有很多bank conflit，降低程序的性能。从profiler里面可以看到，lds bank conflit为13.98，很高的比例，所以此时同时运行的thread就比较少，只有总wave(每个wave 64个thread)的12%（我曾经默认lds内存分配是0，这样我们就省去了这些代码，但是实际上分配内存是一些随机的值…)。

第二段memory操作的代码为：

    //计算thread直方图
    for(int i = 0; i < BIN_SIZE; ++i)
    {
        uint value = (uint)data[groupId * groupSize * BIN_SIZE + i * groupSize + localId];
        sharedArray[localId * BIN_SIZE + value]++;
    }

其中有lds的操作，也有global memory的操作，对于全局memory的访问，在同一时刻，thread0访问i=0的memory

，thread1访问相邻的memory单元…,这是对于global memory的访问会采用合并读写的方式(coalencing)，就是一个memory请求返回16个dword，也就是一个请求满足16个thread，提高memory利用率。此时对lds的写是随机的，根据value的值决定，不能控制…

最后一段memory读写的代码：

//合并workgroup中所有线程的直方图，产生workgroup直方图
for(int i = 0; i < BIN_SIZE / groupSize; ++i)
{
     uint binCount = 0;
     for(int j = 0; j < groupSize; ++j)
         binCount += sharedArray[j * BIN_SIZE + i * groupSize + localId];

     binResult[groupId * BIN_SIZE + i * groupSize + localId] = binCount;
}

其中lds的读写如下图，此时每个线程访问不同的bank，因为amd lds访问就是以32为单位，所以实际上，这段代码不会有bank conflit。

查看全文

相关阅读:
Python金融量化分析小白入门篇之如何安装Tushare模块
 InvalidSpecError: Invalid spec: =2.7报错解决办法
 windows10安装集成环境wampserver，刚开始可以用图标是绿色的，但是过一段时间，启动后呈橙色，重启也不行
 Java代码写完如何打包成程序？.jar包如何转成.exe文件？
C#通过虚方法实现多态性，具体要求如下：1、创建基类Cuboid（长方体）及带有三个参数（长、宽、高）的构造函数。2、使用virtual关键字创建Cuboid类的Cubage（）方法（虚方法）。3、创建Cuboid类的派生类Cube（正方体），并使用override关键字创建与Cuboid类中同名的Cubage（）方法，实现多态。
用C#设计两个类，一个描述点，另一个描述圆。圆由圆心和半径构成，圆类由点类派生而来，其中圆心的特性描述由点类继承下来。要求：圆类提供求圆面积的成员函数；支持初始化的带参构造函数；取得圆心坐标的两个函数。
C#程序填空题，根据注释内容，填补程序空白部分。
在C#中readonly成员：判断对错。
毕业设计第四次任务书
 毕业设计第三次任务书

原文地址：https://www.cnblogs.com/mikewolf2002/p/2742078.html