zoukankan      html  css  js  c++  java
  • 优化屏障和内存屏障

    优化屏障和内存屏障

    优化屏障

    编译器编译源代码时,会将源代码进行优化,将源代码的指令进行重排序,以适合于CPU的并行执行。然而,内核同步必须避免指令重新排序,优化屏障(Optimization barrier)避免编译器的重排序优化操作,保证编译程序时在优化屏障之前的指令不会在优化屏障之后执行。

    Linux用宏barrier实现优化屏障,gcc编译器的优化屏障宏定义列出如下(在include/linux/compiler-gcc.h中): 

    #define barrier() __asm__ __volatile__("": : :"memory")

    上述定义中,“__asm__”表示插入了汇编语言程序,“__volatile__”表示阻止编译器对该值进行优化,确保变量使用了用户定义的精确地址,而不是装有同一信息的一些别名。“memory”表示指令修改了内存单元。

    内存屏障

    软件可通过读写屏障强制内存访问次序。读写屏障像一堵墙,所有在设置读写屏障之前发起的内存访问,必须先于在设置屏障之后发起的内存访问之前完成,确保内存访问按程序的顺序完成。

    读写屏障通过处理器构架的特殊指令mfence(内存屏障)、lfence(读屏障)和sfence(写屏障)完成,见《x86-64构架规范》一章。另外,在x86-64处理器中,对硬件进行操作的汇编语言指令是“串行的”,也具有内存屏障的作用,如:对I/O端口进行操作的所有指令、带lock前缀的指令以及写控制寄存器、系统寄存器或调试寄存器的所有指令(如:cli和sti)。

    Linux内核提供的内存屏障API函数说明如表2。内存屏障可用于多处理器和单处理器系统,如果仅用于多处理器系统,就使用smp_xxx函数,在单处理器系统上,它们什么都不要。

    表2 内存屏障API函数说明

    内存屏障的宏定义 功能说明
    mb() 适用于多处理器和单处理器的内存屏障。
    rmb() 适用于多处理器和单处理器的读内存屏障。
    wmb() 适用于多处理器和单处理器的写内存屏障。
    smp_mb() 适用于多处理器的内存屏障。
    smp_rmb() 适用于多处理器的读内存屏障。
    smp_wmb() 适用于多处理器的写内存屏障。

    适合于多处理器和单处理器的内存屏障宏定义列出如下(在include/asm-x86/system.h中): 

    #ifdef CONFIG_X86_32

    /*指令“lock; addl $0,0(%%esp)”表示加锁,把0加到栈顶的内存单元,该指令操作本身无意义,但这些指令起到内存屏障的作用,让前面的指令执行完成。具有XMM2特征的CPU已有内存屏障指令,就直接使用该指令*/

    #define mb() alternative("lock; addl $0,0(%%esp)", "mfence", X86_FEATURE_XMM2)

    #define rmb() alternative("lock; addl $0,0(%%esp)", "lfence", X86_FEATURE_XMM2)

    #define wmb() alternative("lock; addl $0,0(%%esp)", "sfence", X86_FEATURE_XMM)

    #else

    #define mb() asm volatile("mfence":::"memory")

    #define rmb() asm volatile("lfence":::"memory")

    #define wmb() asm volatile("sfence" ::: "memory")

    #endif

    /*刷新后面的读所依赖的所有挂起读操作,在x86-64构架上不需要*/

    #define read_barrier_depends() do { } while (0)

    宏定义ead_barrier_depends()刷新后面的读所依赖的所有挂起读操作,后面的读操作依赖于正处理的读操作返回的数据。在x86-64构架上不需要此宏。它表明:在此屏障之前,没有来自内存区域数据所依赖的读曾经重排序。所有的读操作处理此原语,保证在跟随此原语的任何读操作此原语之前访问内存(但不需要其他CPU的cache)。此原语在大多数CPU上有比rmb()更轻的份量。

    本地CPU和编译器遵循内存屏障的排序限制,仅内存屏障原语保证排序,即使数据有依赖关系,也不能保证排序。例如:下面代码将强迫排序,因为*q的读操作依赖于p的读操作,并且这两个读操作被read_barrier_depends()分开。在CPU 0和CPU 1上执行的程序语句分别列出如下:

    CPU 0                                      CPU 1 

    b = 2;

    memory_barrier();

    p = &b;                                      q = p;

                                                    read_barrier_depends();

                                                    d = *q;



    下面的代码没有强制排序,因为在a和b的读操作之间没有依赖关系,因此,在一些CPU上,如:Alpha,y将设置为3,x设置为0。类似这种没有数据依赖关系的读操作,需要排序应使用rmb()。



    CPU 0                                        CPU 1



    a = 2;

    memory_barrier();

    b = 3;                                         y = b;

                                                     read_barrier_depends();

                                                     x = a;

    适合于多处理器的内存屏障宏定义列出如下(在include/asm-x86/system.h中): 

    #ifdef CONFIG_SMP

    #define smp_mb() mb()

    #ifdef CONFIG_X86_PPRO_FENCE

    # define smp_rmb() rmb()

    #else

    # define smp_rmb() barrier()

    #endif

    #ifdef CONFIG_X86_OOSTORE

    # define smp_wmb() wmb()

    #else

    # define smp_wmb() barrier()

    #endif

    #define smp_read_barrier_depends() read_barrier_depends()

    #define set_mb(var, value) do { (void)xchg(&var, value); } while (0)

    #else

    #define smp_mb() barrier()

    #define smp_rmb() barrier()

    #define smp_wmb() barrier()

    #define smp_read_barrier_depends() do { } while (0)

    #define set_mb(var, value) do { var = value; barrier(); } while (0)

    #endif

    函数rdtsc_barrier用于加内存屏障阻止RDTSC猜测,当在一个定义的代码区域使用读取时间戳计数器(Read Time-Stamp Counter,RDTSC)函数(或者函数get_cycles或vread)时,必须加内存屏障阻止RDTSC猜测。其列出如下:



    static inline void rdtsc_barrier(void)

    {

        alternative(ASM_NOP3, "mfence", X86_FEATURE_MFENCE_RDTSC);

        alternative(ASM_NOP3, "lfence", X86_FEATURE_LFENCE_RDTSC);

    }

  • 相关阅读:
    给定一个数组,将数组中的元素向右移动 k 个位置,其中 k 是非负数。
    js 中怎么使 if(aᅠ==1 && a== 2 && ᅠa==3) 返回 true?
    最新Hadoop-2.7.2+hbase-1.2.0+zookeeper-3.4.8 HA高可用集群配置安装
    spring 4 + jpa(hibernate 3/4) + spring mvc 多数据源配置(二)+Druid连接池
    activiti 学习由浅入深
    hadoop2.4.1+hbase0.98.3实现的分布式网盘系统初步(已开源)
    【Note】Linux
    记初学CMMI,跳出码农搬砖时代,人人都是经营者
    java8_接口中的默认方法与静态方法
    java8_Stream
  • 原文地址:https://www.cnblogs.com/hehehaha/p/6332847.html
Copyright © 2011-2022 走看看