CUDA中的归约 - 走看看

zoukankan html css js c++ java

CUDA中的归约

CUDA编程实战书中的乘方和解决办法：

对一个数组执行某种计算，然后产生一个更小的结果数组。

由一个线程在共享内存上进行迭代并计算出总和值。而如果用并行，所花时间就与数组长度的对数成正比。

代码的思想是，每个线程将cache[]中的两个值加和，然后结果保存回cache[]。由于每个线程都将两个值合并为一个值，那么在完成这个步骤后，得到的结果数量就是计算开始时数值数量的一半。在下一个步骤中，我们对这一半数值执行相同的操作。在将这种操作执行log2(threadsPerBlock)个步骤后，就能得到cache[]中所有值的总和。对这里的示例来说，我们在每个线程块中使用了256个线程，因此需要8次迭代将cache[]中的256个值归约为一个值。

int i = blockDim.x/2;

while(i != 0)

{

　　if(cacheIndex < i)

　　　　cache[cacheIndex]+=cache[cacheIndex + i];

__syncthreads();

i /= 2;

}

取threadsPerBlock的一半作为i值，只有索引小于这个值的线程才会执行。只有当线程的索引小于i时，才可以把cache[]的两个数据项相加起来，因此我们将假发运算放在if(cacheIndex<i)的代码块中。执行加法运算的线程将cache[]中线程索引位置上的值和线程索引加上i得到的位置上的值相加，并将结果保存会cache[]中线程索引位置上。

查看全文

相关阅读:
GridView绑定模板格式化日期总结
 统计静态页点击量
 行业网seo诊断
 查看sql执行效率
 ItemCommandVSItemDataBound
【转帖】我眼中的flash和silverlight
修改SQLserver数据库中的a表的一列等于b表的一列
 过河卒
 最长公共子序列LCS
情感日记：在中国地质大学的日子

原文地址：https://www.cnblogs.com/ubiwind/p/5084911.html

Copyright © 2011-2022 走看看