zoukankan      html  css  js  c++  java
  • CUDA编程(十)使用Kahan's Summation Formula提高精度

    CUDA编程(十)

    使用Kahan’s Summation Formula提高精度

    上一次我们准备去并行一个矩阵乘法。然后我们在GPU上完毕了这个程序,当然是非常单纯的把任务分配给各个线程。也没有经过优化。终于我们看到,执行效率相当的低下,可是更重要的是出现了一个我们之前做整数立方和没遇到的问题,那就是浮点数精度损失的问题。

    关注GPU运算的精度问题:

    在程序的最后。我们计算了精度误差,发现最大相对误差偏高,而一般理想上应该要低于 1e-6。

    我们之前将评估CUDA程序的时候也提过了。精度是CUDA程序须要重点评估的一个点,那么我们该怎样解决问题呢?我们先分析一下原因。

    出现精度问题的解决办法:

    事实上计算结果的误差偏高的原因非常简单。在 CPU 上进行计算时,我们使用 double(即 64 bits 浮点数)来累进计算过程。而在 GPU 上则仅仅能用 float(32 bits 浮点数)。

    在累加大量数字的时候,由于累加结果非常快会变大。因此后面的数字非常easy被舍去过多的位数。

    这里可能说的不是非常清楚。看完以下这个样例就清楚了。

    浮点数的大数吃小数问题:

    浮点数的精度:

    大家应该非常清楚,浮点数在内存中是按科学计数法来存储的,分为符号位,指数位。和尾数位。

    float和double各段的位数各自是:

    float:
    1bit(符号位) 8bits(指数位) 23bits(尾数位)

    double:
    1bit(符号位) 11bits(指数位) 52bits(尾数位)

    float和double的精度是由尾数的位数来决定的:

    float: 2^23 = 8388608。一共七位,这意味着最多能有7位有效数字,但绝对能保证的为6位,也即float的精度为6~7位有效数字。

    double: 2^52 = 4503599627370496,一共16位,同理。double的精度为15~16位。

    大数吃小数:

    float由于位数相较于double要短不少,所以非常easy出现大数吃小数的问题:

    比方我们用两个float相加:

    #include <stdio.h>
    
    int main()
    {
        float a = 100998;
        float b = 2.338;
    
        a = a + b;
    
        printf("the sum is %f", a);
    
    }

    a+b 应该等于 101000.338,前面说了float的精度有6~7位,所以38可能会被截掉,3不一定,可是8必定会被截掉。我们能够实际输出一下看看:

    结果是:the sum is 101000.335938

    由于%f是输出double类型。能够看到转换后8这位已经没了,33是正常的。

    从这里能够看到一个加法过程就没了0.008,要是加1000次。一个整8就没了。

    这就是大数吃小数问题。

    Kahan’s Summation Formula:

    如今我们就要想办法解决问题了,我们看到标题中这个看起来非常高大上的名字,这个也叫作kahan求和算法,我们接下来就要用kahan求和来避免这样的精度损失的情况。

    名字非常高大上,可是原理非常小儿科,小学生也知道,缺的我们想办法再补回来:

    所以我们用一个temp变量来记住损失掉的部分,等下次加法的时候再加回去就好了。

    temp= (a+b)-a-b; 在上面那个问题中 temp = -0.008,在下次计算的时候加和到下一个加数就能够一定程度的减小误差。

    Kahan’s Summation Formula伪代码:

    function KahanSum(input)
        var sum = 0.0
        var c = 0.0             //A running compensation for lost low-order bits.
        for i = 1 to input.length do
            y = input[i] - c    //So far, so good: c is zero.
            t = sum + y         //Alas, sum is big, y small, so low-order digits of y are lost.
            c = (t - sum) - y   //(t - sum) recovers the high-order part of y; subtracting y recovers -(low part of y)
            sum = t             //Algebraically, c should always be zero. Beware eagerly optimising compilers!
            //Next time around, the lost low part will be added to y in a fresh attempt.
        return sum

    提高矩阵乘法的精度:

    看着伪代码比着葫芦画瓢还是比較简单的,我们仅仅须要更改核函数中的加和部分就可以:

    原版

        //计算矩阵乘法
        if (row < n && column < n)
        {
            float t = 0;
    
            for (i = 0; i < n; i++)
            {
                t += a[row * n + i] * b[i * n + column];
            }
            c[row * n + column] = t;
        }

    改版

        //计算矩阵乘法
        if (row < n && column < n)
        {
            float t = 0;
            float y = 0;
    
            for (i = 0; i < n; i++)
            {
                float r;
    
                y -= a[row * n + i] * b[i * n + column];
                r = t - y;
                y = (r - t) + y;
                t = r;
            }
            c[row * n + column] = t;
        }
    

    完整程序:

    #include <stdio.h>
    #include <stdlib.h>
    #include <time.h>
    
    //CUDA RunTime API
    #include <cuda_runtime.h>
    
    #define THREAD_NUM 256
    
    #define MATRIX_SIZE 1000
    
    const int blocks_num = MATRIX_SIZE*(MATRIX_SIZE + THREAD_NUM - 1) / THREAD_NUM;
    
    //打印设备信息
    void printDeviceProp(const cudaDeviceProp &prop)
    {
        printf("Device Name : %s.
    ", prop.name);
        printf("totalGlobalMem : %d.
    ", prop.totalGlobalMem);
        printf("sharedMemPerBlock : %d.
    ", prop.sharedMemPerBlock);
        printf("regsPerBlock : %d.
    ", prop.regsPerBlock);
        printf("warpSize : %d.
    ", prop.warpSize);
        printf("memPitch : %d.
    ", prop.memPitch);
        printf("maxThreadsPerBlock : %d.
    ", prop.maxThreadsPerBlock);
        printf("maxThreadsDim[0 - 2] : %d %d %d.
    ", prop.maxThreadsDim[0], prop.maxThreadsDim[1], prop.maxThreadsDim[2]);
        printf("maxGridSize[0 - 2] : %d %d %d.
    ", prop.maxGridSize[0], prop.maxGridSize[1], prop.maxGridSize[2]);
        printf("totalConstMem : %d.
    ", prop.totalConstMem);
        printf("major.minor : %d.%d.
    ", prop.major, prop.minor);
        printf("clockRate : %d.
    ", prop.clockRate);
        printf("textureAlignment : %d.
    ", prop.textureAlignment);
        printf("deviceOverlap : %d.
    ", prop.deviceOverlap);
        printf("multiProcessorCount : %d.
    ", prop.multiProcessorCount);
    }
    
    //CUDA 初始化
    bool InitCUDA()
    {
        int count;
    
        //取得支持Cuda的装置的数目
        cudaGetDeviceCount(&count);
    
        if (count == 0)
        {
            fprintf(stderr, "There is no device.
    ");
    
            return false;
        }
    
        int i;
    
        for (i = 0; i < count; i++)
        {
    
            cudaDeviceProp prop;
            cudaGetDeviceProperties(&prop, i);
            //打印设备信息
            printDeviceProp(prop);
    
            if (cudaGetDeviceProperties(&prop, i) == cudaSuccess)
            {
                if (prop.major >= 1)
                {
                    break;
                }
            }
        }
    
        if (i == count)
        {
            fprintf(stderr, "There is no device supporting CUDA 1.x.
    ");
            return false;
        }
    
        cudaSetDevice(i);
    
        return true;
    
    }
    
    //生成随机矩阵
    void matgen(float* a, int n)
    {
        int i, j;
    
        for (i = 0; i < n; i++)
        {
            for (j = 0; j < n; j++)
            {
    
                a[i * n + j] = (float)rand() / RAND_MAX + (float)rand() / (RAND_MAX * RAND_MAX);
    
            }
        }
    }
    
    // __global__ 函数 并行计算矩阵乘法
    __global__ static void matMultCUDA(const float* a, const float* b, float* c, int n, clock_t* time)
    {
    
        //表示眼下的 thread 是第几个 thread(由 0 開始计算)
        const int tid = threadIdx.x;
    
        //表示眼下的 thread 属于第几个 block(由 0 開始计算)
        const int bid = blockIdx.x;
    
        //从 bid 和 tid 计算出这个 thread 应该计算的 row 和 column
        const int idx = bid * THREAD_NUM + tid;
        const int row = idx / n;
        const int column = idx % n;
    
        int i;
    
        //记录运算開始的时间
        clock_t start;
    
        //仅仅在 thread 0(即 threadIdx.x = 0 的时候)进行记录,每一个 block 都会记录開始时间及结束时间
        if (tid == 0) time[bid] = clock();
    
        //计算矩阵乘法
        if (row < n && column < n)
        {
            float t = 0;
    
            //temp变量
            float y = 0;
    
            for (i = 0; i < n; i++)
            {
                float r;
    
                y -= a[row * n + i] * b[i * n + column];
                r = t - y;
                y = (r - t) + y;
                t = r;
            }
            c[row * n + column] = t;
        }
    
        //计算时间,记录结果。仅仅在 thread 0(即 threadIdx.x = 0 的时候)进行,每一个 block 都会记录開始时间及结束时间
        if (tid == 0)
        {
            time[bid + blocks_num] = clock();
        }
    }
    
    
    
    
    
    int main()
    {
    
        //CUDA 初始化
        if (!InitCUDA()) return 0;
    
        //定义矩阵
        float *a, *b, *c, *d;
    
        int n = MATRIX_SIZE;
    
        //分配内存
        a = (float*)malloc(sizeof(float)* n * n);
        b = (float*)malloc(sizeof(float)* n * n);
        c = (float*)malloc(sizeof(float)* n * n);
        d = (float*)malloc(sizeof(float)* n * n);
    
        //设置随机数种子
        srand(0);
    
        //随机生成矩阵
        matgen(a, n);
        matgen(b, n);
    
        /*把数据拷贝到显卡内存中*/
        float *cuda_a, *cuda_b, *cuda_c;
    
        clock_t* time;
    
        //cudaMalloc 取得一块显卡内存 
        cudaMalloc((void**)&cuda_a, sizeof(float)* n * n);
        cudaMalloc((void**)&cuda_b, sizeof(float)* n * n);
        cudaMalloc((void**)&cuda_c, sizeof(float)* n * n);
        cudaMalloc((void**)&time, sizeof(clock_t)* blocks_num * 2);
    
    
        //cudaMemcpy 将产生的矩阵拷贝到显卡内存中
        //cudaMemcpyHostToDevice - 从内存拷贝到显卡内存
        //cudaMemcpyDeviceToHost - 从显卡内存拷贝到内存
        cudaMemcpy(cuda_a, a, sizeof(float)* n * n, cudaMemcpyHostToDevice);
        cudaMemcpy(cuda_b, b, sizeof(float)* n * n, cudaMemcpyHostToDevice);
    
        // 在CUDA 中执行函数 语法:函数名称<<<block 数目, thread 数目, shared memory 大小>>>(參数...);
        matMultCUDA << < blocks_num, THREAD_NUM, 0 >> >(cuda_a, cuda_b, cuda_c, n, time);
    
        /*把结果从显示芯片复制回主内存*/
    
        clock_t time_use[blocks_num * 2];
    
        //cudaMemcpy 将结果从显存中复制回内存
        cudaMemcpy(c, cuda_c, sizeof(float)* n * n, cudaMemcpyDeviceToHost);
        cudaMemcpy(&time_use, time, sizeof(clock_t)* blocks_num * 2, cudaMemcpyDeviceToHost);
    
        //Free
        cudaFree(cuda_a);
        cudaFree(cuda_b);
        cudaFree(cuda_c);
        cudaFree(time);
    
        //把每一个 block 最早的開始时间。和最晚的结束时间相减。取得总执行时间
        clock_t min_start, max_end;
    
        min_start = time_use[0];
    
        max_end = time_use[blocks_num];
    
        for (int i = 1; i < blocks_num; i++)
        {
            if (min_start > time_use[i]) min_start = time_use[i];
    
            if (max_end < time_use[i + blocks_num]) max_end = time_use[i + blocks_num];
        }
    
        //核函数执行时间
        clock_t final_time = max_end - min_start;
    
    
    
        //CPU矩阵乘法,存入矩阵d
        for (int i = 0; i < n; i++)
        {
            for (int j = 0; j < n; j++)
            {
                double t = 0;
    
                for (int k = 0; k < n; k++)
                {
    
                    t += a[i * n + k] * b[k * n + j];
    
                }
    
                d[i * n + j] = t;
    
            }
        }
    
        //验证正确性与精确性
    
        float max_err = 0;
    
        float average_err = 0;
    
    
        for (int i = 0; i < n; i++)
        {
            for (int j = 0; j < n; j++)
            {
                if (d[i * n + j] != 0)
                {
                    //fabs求浮点数x的绝对值
                    float err = fabs((c[i * n + j] - d[i * n + j]) / d[i * n + j]);
    
                    if (max_err < err) max_err = err;
    
                    average_err += err;
                }
            }
        }
    
        printf("Max error: %g Average error: %g
    ", max_err, average_err / (n * n));
    
    
        printf("gputime: %d
    ", final_time);
    
    
    
        return 0;
    
    }
    

    执行结果:

    这里写图片描写叙述

    我们看到结果还是效果还是非常不错的,我们上次的结果是:

    Max error:2.07589e-006
    Average error :3.3492e-007
    gpu time:189967999

    而眼下的结果是:

    Max error:1.19206e-007
    Average error :7.70641e-010
    gpu time:210779939

    我们能够看到准确度确实有了非常大的提升,当然效率还是一如既往地慢,只是我们至少把精度问题给攻克了。

    总结:

    之前我们用CUDA完毕了矩阵乘法,可是当然会存在非常多问题,除了速度问题。GPU浮点数运算的精度也非常差,本篇博客从出现误差的原理(浮点数大数吃小数)分析,使用了Kahan’s Summation Formula在一定程度上攻克了CUDA运算float精度不够的情况。接下来我们会着手去解决速度问题~

    希望我的博客能帮助到大家~

    參考资料:《深入浅出谈CUDA》

  • 相关阅读:
    lnmp thinkphp在linux上支持pathinfo
    position
    whereis命令
    Css transition
    CSS3 2D 转换
    asp.net缓存(转)
    Quartz.net开源作业调度框架使用详解(转)
    .Net开源工作流Roadflow的使用与集成(转)
    反射中 GetCustomAttributes
    ASP.NTE 5 Target framework dnx451 and dnxcore50(转)原文:http://www.cnblogs.com/xishuai/p/aspnet5-target-framework-dnx451-and-dnxcore50.html
  • 原文地址:https://www.cnblogs.com/blfbuaa/p/7207406.html
Copyright © 2011-2022 走看看