cudaMemcpy cudaMalloc

zoukankan html css js c++ java

cudaMemcpy cudaMalloc
cudaMemcpy有四种类型：HostToHost, DeviceToHost, HostToDevice, DeviceToDevices

现在我有两个指针:h_ptr, d_ptr，分别指向host端某数组的起始位置，和device端数组的起始位置。num是h_ptr数组的大小，一开始只有host端存有这个数组。

这两个指针是直接定义在host端的，比如
```
int *h_ptr;
int *d_ptr;
```
当我要在Device（也就是GPU）上创建一个d_ptr指向的数组，并把h_ptr数组的值拷贝过去时：
```
cudaMalloc((void**)&d_ptr, (num) * sizeof(int));  //注意这里是void**
cudaMemcpy(d_ptr, h_ptr, 
           sizeof(int) * (num), cudaMemcpyHostToDevice);
```
需要先在GPU上malloc一段内存，然后使用cudaMemcpyHostToDevice指定内存传输方向，把num个int传过去。
那么现在，虽然d_ptr仍然是host端的指针，但它指向的地址是device端的了，我在GPU的kernel function中将d_ptr作为参数传进去，便可以在GPU端通过d_ptr获取数组的值了：
```
__global__ void kernel_opt(int *d_ptr, int num){
    int id = blockIdx.x * blockDim.x + threadIdx.x;
    if(id < num)
	    d_ptr[id] = calc(d_ptr[id]);
    // 计算
}
```
在GPU端计算完毕之后，可能要把数组中新的值传回host端，也就是d_ptr到h_ptr，在host端这样操作即可：
```
cudaMemcpy(h_ptr, d_ptr, sizeof(int) * (num), cudaMemcpyDeviceToHost);
```
总结：host端只能获取位于host端的内存（比如 h_ptr[0] ），device端只能获取位于device端的内存（比如 d_ptr[0]），如要跨界，使用cudaMemcpy。
查看全文

相关阅读:
C语言课程设计学生信息管理系统（简单版）
Windows 常用Cmd命令行 (持续更新...)
C++课程设计通讯录管理系统原码及解析
 C++ Error 个人笔记(live)
sql查询当天数据
 web.xml中load-on-startup标签的含义
 @Repository、@Service、@Controller 和 @Component
SQL Server JDBC驱动中sqljdbc和sqljdbc4区别
 windows下设置/删除Tomcat的开机自启动
 【Python技巧系列】条件语句一行实现

原文地址：https://www.cnblogs.com/thkkk/p/14949014.html