zoukankan html css js c++ java

AMD OpenCL大学课程(5)

OpenCL内存模型

OpenCL的内存模型定义了各种各样内存类型，各种内存模型之间有层级关系。各种内存之间的数据传输必须是显式进行的，比如从host memory到device memory，从global memory到local memory等等。

WorkGroup被映射到硬件的CU上执行（在AMD 5xxx系列显卡上，CU就是simd，一个simd中有16个pe），OpenCL并不提供各个workgroup之间的一致性，如果我们需要在各个workgroup之间共享数据或者通信之类的，要自己通过软件实现。

Kernel函数的写法

每个线程（workitem）都有一个kenerl函数的实例。下面我们看下kernel的写法：

__kernel void vecadd(__global const float* A, __global const float* B, __global float* C)

{

int id = get_global_id(0);

C[id] = A[id] + B[id];

}

每个Kernel函数都必须以__kernel开始，而且必须返回void。每个输入参数都必须声明使用的内存类型。通过一些API，比如get_global_id之类的得到线程id。

内存对象地址空间标识符有以下几种：

__global – memory allocated from global address space

__constant – a special type of read-only memory

__local – memory shared by a work-group

__private – private per work-item memory

__read_only/__write_only – used for images

Kernel函数参数如果是内存对象，那么一定是__global,__local或者constant。

运行Kernel

首先要设置线程索引空间的维数以及workgroup大小等。

我们通过函数clEnqueueNDRangeKerne把Kernel放在一个队列里，但不保证它马上执行，OpenCL driver会管理队列，调度Kernel的执行。注意：每个线程执行的代码都是相同的，但是它们执行数据却是不同的。

该函数把要执行的Kernel函数放在指定的命令队列中，globald大小（线程索引空间）必须指定，local大小（work group）可以指定，也可以为空。如果为空，则系统会自动根据硬件选择合适的大小。event_wait_list用来选定一些events，只有这些events执行完后，该kernel才可能被执行，也就是通过事件机制来实现不同kernel函数之间的同步。

当Kernel函数执行完毕后，我们要把数据从device memory中拷贝到host memory中去。

释放资源：

大多数的OpenCL资源都是指针，不使用的时候需要释放掉。当然，程序关闭的时候这些对象也会被自动释放掉。

释放资源的函数是：clRelase{Resource} ，比如: clReleaseProgram(), clReleaseMemObject()等。

错误捕捉：

如果OpenCL函数执行失败，会返回一个错误码，一般是个负值，返回0则表示执行成功。我们可以根据该错误码知道什么地方出错了，需要修改。错误码在cl.h中定义，下面是几个错误码的例子.

CL_DEVICE_NOT_FOUND -1

CL_DEVICE_NOT_AVAILABLE -2

CL_COMPILER_NOT_AVAILABLE -3

CL_MEM_OBJECT_ALLOCATION_FAILURE -4

…

下面是一个OpenCL机制的示意图

程序模型

数据并行：work item和内存对象元素之间是一一映射关系；workgroup可以显示指定，也可以隐式指定。

任务并行：kernel的执行独立于线程索引空间；用其他方法表示并行，比如把不同的任务放入队列，用设备指定的特殊的向量类型等等。

同步：workgroup内work item之间的同步；命令队列中不同命令之间的同步。

完整代码如下：

#include "stdafx.h"

#include <CL/cl.h>

#include <stdio.h>

#include <stdlib.h>

#include <time.h>

#include <iostream>

#include <fstream>

 

using namespace std;

#define NWITEMS 262144

 

#pragma comment (lib,"OpenCL.lib")

 

//把文本文件读入一个string中

int convertToString(const char *filename, std::string& s)

{

size_t size;

char* str;

 

std::fstream f(filename, (std::fstream::in | std::fstream::binary));

 

if(f.is_open())

{

size_t fileSize;

f.seekg(0, std::fstream::end);

size = fileSize = (size_t)f.tellg();

f.seekg(0, std::fstream::beg);

 

str = new char[size+1];

if(!str)

{

f.close();

return NULL;

}

 

f.read(str, fileSize);

f.close();

str[size] = '\0';



s = str;

delete[] str;

return 0;

}

printf("Error: Failed to open file %s\n", filename);

return 1;

}

 

int main(int argc, char* argv[])

{

//在host内存中创建三个缓冲区

float *buf1 = 0;

float *buf2 = 0;

float *buf = 0;



buf1 =(float *)malloc(NWITEMS * sizeof(float));

buf2 =(float *)malloc(NWITEMS * sizeof(float));

buf =(float *)malloc(NWITEMS * sizeof(float));

 

//初始化buf1和buf2的内容

int i;

srand( (unsigned)time( NULL ) );

for(i = 0; i < NWITEMS; i++)

buf1[i] = rand()%65535;

 

srand( (unsigned)time( NULL ) +1000);

for(i = 0; i < NWITEMS; i++)

buf2[i] = rand()%65535;

 

for(i = 0; i < NWITEMS; i++)

buf[i] = buf1[i] + buf2[i];

 

cl_uint status;

cl_platform_id platform;

 

//创建平台对象

status = clGetPlatformIDs( 1, &platform, NULL );

 

cl_device_id device;

 

//创建GPU设备

clGetDeviceIDs( platform, CL_DEVICE_TYPE_GPU,

1,

&device,

NULL);

//创建context

cl_context context = clCreateContext( NULL,

1,

&device,

NULL, NULL, NULL);

//创建命令队列

cl_command_queue queue = clCreateCommandQueue( context,

device,

CL_QUEUE_PROFILING_ENABLE, NULL );

//创建三个OpenCL内存对象，并把buf1的内容通过隐式拷贝的方式

//拷贝到clbuf1,buf2的内容通过显示拷贝的方式拷贝到clbuf2

cl_mem clbuf1 = clCreateBuffer(context,

CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR,

NWITEMS*sizeof(cl_float),buf1,

NULL );

 

cl_mem clbuf2 = clCreateBuffer(context,

CL_MEM_READ_ONLY ,

NWITEMS*sizeof(cl_float),NULL,

NULL );

 

status = clEnqueueWriteBuffer(queue, clbuf2, 1,

0, NWITEMS*sizeof(cl_float), buf2, 0, 0, 0);

 

cl_mem buffer = clCreateBuffer( context,

CL_MEM_WRITE_ONLY,

NWITEMS * sizeof(cl_float),

NULL, NULL );

 

const char * filename = "add.cl";

std::string sourceStr;

status = convertToString(filename, sourceStr);

const char * source = sourceStr.c_str();

size_t sourceSize[] = { strlen(source) };

 

//创建程序对象

cl_program program = clCreateProgramWithSource(

context,

1,

&source,

sourceSize,

NULL);

//编译程序对象

status = clBuildProgram( program, 1, &device, NULL, NULL, NULL );

if(status != 0)

{

printf("clBuild failed:%d\n", status);

char tbuf[0x10000];

clGetProgramBuildInfo(program, device, CL_PROGRAM_BUILD_LOG, 0x10000, tbuf, NULL);

printf("\n%s\n", tbuf);

return -1;

}

 

//创建Kernel对象

cl_kernel kernel = clCreateKernel( program, "vecadd", NULL );

//设置Kernel参数

cl_int clnum = NWITEMS;

clSetKernelArg(kernel, 0, sizeof(cl_mem), (void*) &clbuf1);

clSetKernelArg(kernel, 1, sizeof(cl_mem), (void*) &clbuf2);

clSetKernelArg(kernel, 2, sizeof(cl_mem), (void*) &buffer);

 

//执行kernel

cl_event ev;

size_t global_work_size = NWITEMS;

clEnqueueNDRangeKernel( queue,

kernel,

1,

NULL,

&global_work_size,

NULL, 0, NULL, &ev);

clFinish( queue );

 

//数据拷回host内存

cl_float *ptr;

ptr = (cl_float *) clEnqueueMapBuffer( queue,

buffer,

CL_TRUE,

CL_MAP_READ,

0,

NWITEMS * sizeof(cl_float),

0, NULL, NULL, NULL );

//结果验证，和cpu计算的结果比较

if(!memcmp(buf, ptr, NWITEMS))

printf("Verify passed\n");

else printf("verify failed");

 

if(buf)

free(buf);

if(buf1)

free(buf1);

if(buf2)

free(buf2);

 

//删除OpenCL资源对象

clReleaseMemObject(clbuf1);

clReleaseMemObject(clbuf2);

clReleaseMemObject(buffer);

clReleaseProgram(program);

clReleaseCommandQueue(queue);

clReleaseContext(context);

return 0;

}



也可以在http://code.google.com/p/imagefilter-opencl/downloads/detail?name=amdunicourseCode1.zip&can=2&q=#makechanges上下载完整版本。

查看全文

相关阅读:
[bzoj3524]Couriers
[bzoj2789]Letters
[bzoj4318]OSU!
[luogu4570]元素
 [hdu6600]Just Skip The Problem
[bzoj5025]单调上升路径
 [bzoj4557]侦察守卫
 [hdu5379]Mahjong tree
[bzoj2957]楼房重建
 [noi253]A

原文地址：https://www.cnblogs.com/mikewolf2002/p/2332421.html