zoukankan html css js c++ java

CentOS6中OpenMP的运行时间或运行性能分析

OpenMp作为单机多核心共享内存并行编程的开发工具，具有编码简洁等，容易上手等特点。

关于OpenMP的入门，博主饮水思源（见参考资料）有了深入浅出，循序渐进的分析。做并行开发，做性能分析是永远逃避不开的话题，性能问题的研究一切基于系统的计时。本人参考饮水思源的代码在双核与四核机器的操作过程中，发现clock()针对并行运行时间计时不准的问题，运行结果显示并行方式和串行的时间基本相近，使得并行方式在时间计数上并未有明显优势。本文就其运行时间统计做相关分析，通过改进的方式，对时间进行了判断，首先在For循环中加入打印语句判断是否多核执行；然后判断系统确实是多核执行后，在For循环中加入等待函数sleep，运行程序并人工计时，这时的时间在双核机器并行比串行要快近两倍，四核机器并行时间比串行快近四倍。所以可知clock（）不适合做并行程序的计时工具，需要找到相关的替代。

    for (int i=0;i<10;i++)
    {
        std::cout<<"currend id: "<<omp_get_thread_num()<<std::endl;
        sleep(1);
        test();
    }

1、For循环的串行

新建SFor.cpp文件，内容为

 1 #include <iostream>
 2 #include <time.h>
 3 #include <stdio.h>
 4 #include <omp.h>
 5 void test()
 6 {
 7     int a = 0;
 8     for (int i=0;i<100000000;i++)
 9         a++;
10 }
11 int main()
12 {
13     struct timespec time1 = {0, 0};
14     struct timespec time2 = {0, 0};
15     clock_gettime(CLOCK_REALTIME, &time1);
16     std::cout<<"sec num: "<<time1.tv_sec<<"; nsec num:  "<<time1.tv_nsec<<std::endl;
17     //clock_t t1 = clock();
18     for (int i=0;i<10;i++)
19     {
20         //std::cout<<"currend id: "<<omp_get_thread_num()<<std::endl;
21         test();
22     }
23     //clock_t t2 = clock();
24     //std::cout<<"time: "<<t2-t1<<std::endl;
25     clock_gettime(CLOCK_REALTIME, &time2);
26     std::cout<<"sec num: "<<time2.tv_sec<<"; nsec num:  "<<time2.tv_nsec<<std::endl;
27     std::cout<<"time: "<<(time2.tv_sec-time1.tv_sec)*1000+(time2.tv_nsec-time1.tv_nsec)/1000000<<"ms"<<std::endl;
28 }

CentOS6.5 的GCC版本默认4.4.7，原生支持OpenMP编译

[root@localhost MPDemo]# gcc --version
gcc (GCC) 4.4.7 20120313 (Red Hat 4.4.7-4)
通过编译命令编译源文件为：

g++ -fopenmp SFor.cpp -o sfor.out

[root@localhost MPDemo]# g++ -fopenmp PFor.cpp -o pfor.out
[root@localhost MPDemo]# ./sfor.out
sec num: 1386991744; nsec num: 676508350
sec num: 1386991748; nsec num: 245595277
time: 3570ms

2、For循环的并行

新建PFor.cpp文件，内容为

 1 #include <iostream>
 2 #include <time.h>
 3 #include <stdio.h>
 4 #include <omp.h>
 5 void test()
 6 {
 7     int a = 0;
 8     for (int i=0;i<100000000;i++)
 9         a++;
10 }
11 int main()
12 {
13     int coreNum = omp_get_num_procs();//获得处理器个数
14     std::cout<<"cpu numbers: "<<coreNum<<std::endl;
15     struct timespec time1 = {0, 0};
16     struct timespec time2 = {0, 0};
17     clock_gettime(CLOCK_REALTIME, &time1);
18     std::cout<<"sec num: "<<time1.tv_sec<<"; nsec num:  "<<time1.tv_nsec<<std::endl;
19     //clock_t t1 = clock();
20     #pragma omp parallel for
21     for (int i=0;i<10;i++)
22     {
23         //std::cout<<"currend id: "<<omp_get_thread_num()<<std::endl;
24         test();
25     }
26     //clock_t t2 = clock();
27     //std::cout<<"time: "<<t2-t1<<std::endl;
28     clock_gettime(CLOCK_REALTIME, &time2);
29     std::cout<<"sec num: "<<time2.tv_sec<<"; nsec num:  "<<time2.tv_nsec<<std::endl;
30     std::cout<<"time: "<<(time2.tv_sec-time1.tv_sec)*1000+(time2.tv_nsec-time1.tv_nsec)/1000000<<"ms"<<std::endl;
31 }

g++ -fopenmp PFor.cpp -o pfor.out

[root@localhost MPDemo]# ./pfor.out
cpu numbers: 2
sec num: 1386991842; nsec num: 452768086
sec num: 1386991844; nsec num: 527629070
time: 2074

3、分析总结

    clock_gettime能获得纳秒级的精度，1秒=10^9纳秒。clock_gettime包含多种计时方式。
    a、CLOCK_REALTIME:系统实时时间,随系统实时时间改变而改变
    b、CLOCK_MONOTONIC,从系统启动这一刻起开始计时,不受系统时间被用户改变的影响
    c、CLOCK_PROCESS_CPUTIME_ID,本进程到当前代码系统CPU花费的时间
    d、CLOCK_THREAD_CPUTIME_ID,本线程到当前代码系统CPU花费的时间

本文默认采用CLOCK_REALTIME，即可实现并行程序的准确计时。示例代码如下：

1     struct timespec time1 = {0, 0};
2     clock_gettime(CLOCK_REALTIME, &time1);
3     std::cout<<"sec num: "<<time1.tv_sec<<"; nsec num:  "<<time1.tv_nsec<<std::endl;

参考资料

参考比较好的入门资源：博主饮水思源的openMP的一点使用经验

查看全文

相关阅读:
五十四：CSS3之背景与渐变之渐变
 五十三：CSS3之背景与渐变之背景
 五十二：CSS3之圆角、边框、边界图片
 五十一：CSS3之基本选择器之伪元素
 五十：CSS3之基本选择器之CSS权重
 四十九：CSS3之基本选择器之伪类选择器之结构类之nth选择器
 四十八：CSS3之基本选择器之伪类选择器之UI元素状态伪类
 四十七：CSS3之基本选择器之伪类选择器之动态伪类
 四十六：CSS3之基本选择器新增加的属性选择器
 四十五：CSS3之基本选择器新增加的4种选择器

原文地址：https://www.cnblogs.com/diploma/p/openmpclock_gettime.html