zoukankan html css js c++ java

GPU/CUDA程序初体验向量加法

https://www.cnblogs.com/xudong-bupt/p/3461163.html

#include <stdio.h>
#include<cuda_runtime.h>
 
//__global__声明的函数，告诉编译器这段代码交由CPU调用，由GPU执行
__global__ void add(const int *dev_a,const int *dev_b,int *dev_c)
{
    int i=threadIdx.x;
    dev_c[i]=dev_a[i]+dev_b[i];
}
 
int main(void)
{
    //申请主机内存，并进行初始化
    int host_a[512],host_b[512],host_c[512];
    for(int i=0;i<512;i++)
    {
        host_a[i]=i;
        host_b[i]=i<<1;
    }
 
    //定义cudaError，默认为cudaSuccess(0)
    cudaError_t err = cudaSuccess;
 
    //申请GPU存储空间
    int *dev_a,*dev_b,*dev_c;
    err=cudaMalloc((void **)&dev_a, sizeof(int)*512);
    err=cudaMalloc((void **)&dev_b, sizeof(int)*512);
    err=cudaMalloc((void **)&dev_c, sizeof(int)*512);
    if(err!=cudaSuccess)
    {
        printf("the cudaMalloc on GPU is failed");
        return 1;
    }
    printf("SUCCESS");
    //将要计算的数据使用cudaMemcpy传送到GPU
    cudaMemcpy(dev_a,host_a,sizeof(host_a),cudaMemcpyHostToDevice);
    cudaMemcpy(dev_b,host_b,sizeof(host_b),cudaMemcpyHostToDevice);
 
    //调用核函数在GPU上执行。数据较少，之使用一个Block，含有512个线程
    add<<<1,512>>>(dev_a,dev_b,dev_c);
    cudaMemcpy(&host_c,dev_c,sizeof(host_c),cudaMemcpyDeviceToHost);
    for(int i=0;i<512;i++)
        printf("host_a[%d] + host_b[%d] = %d + %d = %d\n",i,i,host_a[i],host_b[i],host_c[i]);
    cudaFree(dev_a);//释放GPU内存
    cudaFree(dev_b);//释放GPU内存
    cudaFree(dev_c);//释放GPU内存
    return 0 ;
}

查看全文

相关阅读:
Qt中的SIGNAL和SLOT
Android单个模块编译
 decoupling of objetctoriented systems
设计模式之Objectifier
代码示例:调用SPS提供的remoting服务,在线把Office文档转换成html文档
 利用WSS做后台存储设计一个统一的信息发布平台
 元数据(metadata)在企业应用开发中的作用
 面向对象的软件设计中应当遵守的原则
 使用NUnit在.Net编程中进行单元测试
 最近在使用sps类库过程中发现了一个让我比较疑惑的问题(有关items属性的)

原文地址：https://www.cnblogs.com/heimafeitian/p/9644215.html

GPU/CUDA程序初体验 向量加法

GPU/CUDA程序初体验向量加法