zoukankan      html  css  js  c++  java
  • GPU/CUDA程序初体验 向量加法

    现在主要的并行计算设备有两种发展趋势:

    (1)多核CPU。

      双核,四核,八核,。。。,72核,。。。,可以使用OpenMP编译处理方案,就是指导编译器编译为多核并行执行。

    (2)多线程设备(GP)GPU。

      通用GPU,就是显卡,以nvidia公司的显卡为主。nvidia使用CUDA编程。

    由于毕业的需要,现在开始学习CUDA编程。看了一段时间教程,目前环境已经配好,下面是一个简单的CUDA程序:

    程序实现向量的加法操作,使用了一个block内部的512个线程。

     1 #include <stdio.h>
     2 #include<cuda_runtime.h>
     3 
     4 //__global__声明的函数,告诉编译器这段代码交由CPU调用,由GPU执行
     5 __global__ void add(const int *dev_a,const int *dev_b,int *dev_c)
     6 {
     7     int i=threadIdx.x;
     8     dev_c[i]=dev_a[i]+dev_b[i];
     9 }
    10 
    11 int main(void)
    12 {
    13     //申请主机内存,并进行初始化
    14     int host_a[512],host_b[512],host_c[512];
    15     for(int i=0;i<512;i++)
    16     {
    17         host_a[i]=i;
    18         host_b[i]=i<<1;
    19     }
    20 
    21     //定义cudaError,默认为cudaSuccess(0)
    22     cudaError_t err = cudaSuccess;
    23 
    24     //申请GPU存储空间
    25     int *dev_a,*dev_b,*dev_c;
    26     err=cudaMalloc((void **)&dev_a, sizeof(int)*512);
    27     err=cudaMalloc((void **)&dev_b, sizeof(int)*512);
    28     err=cudaMalloc((void **)&dev_c, sizeof(int)*512);
    29     if(err!=cudaSuccess)
    30     {
    31         printf("the cudaMalloc on GPU is failed");
    32         return 1;
    33     }
    34     printf("SUCCESS");
    35     //将要计算的数据使用cudaMemcpy传送到GPU
    36     cudaMemcpy(dev_a,host_a,sizeof(host_a),cudaMemcpyHostToDevice);
    37     cudaMemcpy(dev_b,host_b,sizeof(host_b),cudaMemcpyHostToDevice);
    38 
    39     //调用核函数在GPU上执行。数据较少,之使用一个Block,含有512个线程
    40     add<<<1,512>>>(dev_a,dev_b,dev_c);
    41     cudaMemcpy(&host_c,dev_c,sizeof(host_c),cudaMemcpyDeviceToHost);
    42     for(int i=0;i<512;i++)
    43         printf("host_a[%d] + host_b[%d] = %d + %d = %d
    ",i,i,host_a[i],host_b[i],host_c[i]);
    44     cudaFree(dev_a);//释放GPU内存
    45     cudaFree(dev_b);//释放GPU内存
    46     cudaFree(dev_c);//释放GPU内存
    47     return 0 ;
    48 }
    View Code

     程序输出:

  • 相关阅读:
    阿里云服务器常见问题记录
    npm 常见错误记录
    C程序设计(第四版)课后习题完整版 谭浩强编著
    博客如何快速让百度谷歌等各大引擎收录
    python itertools 用法
    python中dict的fromkeys用法
    python解析XML
    flask+uwsgi+nginx+docker-compose部署
    python的构建工具setup.py
    python判断字符串类型
  • 原文地址:https://www.cnblogs.com/xudong-bupt/p/3461163.html
Copyright © 2011-2022 走看看