zoukankan      html  css  js  c++  java
  • GPU 编程 global memory 的使用

    最近做作业,发现了一个一直不理解的问题终于明白了,高兴!

    block只是用来划分task。

    block和device memory 访问没有对应关系。 block可以访问任一device memory的内容。 之前,以为block只能访问划分给它的那块数据!!

    比如以前提过的两矩阵乘法, 矩阵小块可以除了访问该矩阵小块对应的device memory,还访问了同一列分区和同一行分区的 device memory。

    但是,block在写device memory的时候,就需要注意了!

    总之:

    block 的任务 划分  和 device memory 的数据布局有很大的关系。 

    如果device memory 的数据布局好,任务划分的时候,访问数据、写数据都比较容易。有时候,就是根据数据布局来进行任务划分的。

    block可以访问任一数据。 计算 index的目的是用来明白自己是第几个thread,该thread的任务是什么!!

    share_memory 的使用非常关键!!

    还需要更多地看GPU 编程例子,思考 自己的编程想法,再看样例 (这样比自己编程实现省时间。想起了当初学C++的时候,练习册里的例子是看完了的)

    高山仰止,景行行止。虽不能至,然心向往之。
  • 相关阅读:
    ios原生项目内嵌u3d工程
    u3d内嵌H5游戏 设置cookie
    unity3d IL2CPP for android
    unity3D内嵌android项目
    Django 跨域问题
    tensorflow 调试tfdbg
    Cuda9.1+cunn7.1+Tensorflow1.7-GUP
    shader
    lua 中protobuf repeated 嵌套类 复合类型
    30岁的思考
  • 原文地址:https://www.cnblogs.com/xingzifei/p/4903314.html
Copyright © 2011-2022 走看看