zoukankan      html  css  js  c++  java
  • 程序优化---循环展开

    转载:https://www.cnblogs.com/liboyan/p/5011382.html

     1 void combine5(double data[], int length)
     2 {
     3     double sum = 0.0;
     4     for (int i = 0; i<length; i++)
     5     {
     6         sum *= data[i];
     7     }
     8     cout << sum << endl;
     9 }
    10 
    11 void combine6(double data[], int length)
    12 {
    13     double sum = 0.0;
    14     int limit = length - 1;
    15     int i;
    16     for (i = 0; i<limit; i += 2)
    17     {
    18         sum = sum*data[i] * data[i + 1];
    19     }
    20     for (; i<length; i++)
    21     {
    22         sum *= data[i];
    23     }
    24     cout << sum << endl;
    25 }
    26 
    27 void combine7(double data[], int length)
    28 {
    29     double sum1 = 0.0, sum2 = 0.0;
    30     int limit = length - 1;
    31     int i;
    32     for (i = 0; i<limit; i += 2)
    33     {
    34         sum1 *= data[i];   //  合并下标为偶数的值,  0按偶数算
    35         sum2 *= data[i + 1];  //  合并下标为奇数的值
    36     }
    37     double sum = sum1*sum2;
    38     for (; i<length; i++)
    39     {
    40         sum *= data[i];
    41     }
    42     cout << sum << endl;
    43 }

       上面三个函数的功能是一样的,但是究其运行速度来说则不可同日语。为什么呢?

       由于加法器和乘法器是完全流水线化的,这代表着他们可以一个时钟周期执行多条指令,参见我前面写的那一篇博文(优化的小细节)。减小代码之间的相关性,增加代码的并行性,可以大幅度增加代码的执行效率,做到把CPU的能力都逼出来的地步。

       combine5只是做了一些简单的优化,combine6进行了循环展开,combine7既循环展开又多路并行。如果combine5运行时间是5,combine6的运行时间就会是2.5! combine7的运行时间就会是1!没错就是这么霸道!IA32以后的指令集都支持如此优化,但是绝大多数编译器都不会帮你把代码改成这个样子,所以自己写是最好的了。如果加上SSE的话,会把CPU的能力榨干的=。=  嘎嘎   下面来说说原因,为什么循环展开多路并行就比随便写快呢? 首先解释一个名词,叫关键路径,循环的效率主要取决于关键路径上的指令,循环的关键路径可以看成是贯穿整个循环的变量与计算,减少关键路径上的东西就等于加快了时间!那么循环展开就可以看成是减少了CPU走关键路径的次数,但是每次关键路径上的计算sum = sum*data[i]*data[i+1] 的相关性较大,两次乘法无法并行,因为第二次乘法必须等第一次乘法完毕才能执行。多路并行就可以解决这个问题,sum1 *= data[i]; sum2 *= data[i+1];这两个乘法互不依赖,完全可以并行,相当于只做了一次乘法,所以速度便大大加快了。

       从上面的分析会发现,循环展开三次,三路并行会比上面的代码更快,以此类推,代码的优化效率必然会趋近于一个极限值。这个极限值就是CPU的吞吐量界限了,理论上讲就无法再优化了。

  • 相关阅读:
    2019 ICPC Malaysia National H题
    欧拉定理证明
    P3384 【模板】树链剖分
    HDU 6070 Dirt Ratio(线段树、二分)
    51Nod 1571 最近等对(线段树、离线查询)
    51Nod 1781 Pinball(线段树、dp、离散化)
    51Nod 1494 选举拉票(权值线段树)
    51Nod 1766 树上的最远点对(欧拉序、lca、线段树区间合并)
    lintcode-179-更新二进制位
    lintcode-178-图是否是树
  • 原文地址:https://www.cnblogs.com/nuchenghao/p/11297193.html
Copyright © 2011-2022 走看看