zoukankan      html  css  js  c++  java
  • Memory Barrier in Compiler and CPU

    Memory barrier, is a type of barrier and a class of instruction which causes a CPU or compiler to enforce an ordering constraint on memory operations issued before and after the barrier instruction.

    之所以需要Memory barrier就是因为CPU Out-of-order execution 和 compiler reordering optimizations。

     

    Compiler memory barrier
     
    These barriers prevent a compiler from reordering instructions, they do not prevent reordering by CPU.
    The GNU inline assembler statement
    asm volatile("" ::: "memory");
     
    or even
    __asm__ __volatile__ ("" ::: "memory");
     
    forbids GCC compiler to reorder read and write commands around it.
    Intel ECC compiler uses "full compiler fence"
    __memory_barrier()
     
    intrinsics.
    Microsoft Visual C++ Compiler:[8]
    _ReadWriteBarrier()

    Hardware memory barrier
     
    Many architectures with SMP support have special hardware instruction for flushing reads and writes.
    x86, x86-64
    lfence (asm), void_mm_lfence(void)
    sfence (asm), void_mm_sfence(void) [9]
    mfence (asm), void_mm_mfence(void) [10]
    ARMv7
    dmb (asm)
    对硬件memory barrier的更多理解

    1. 只有一个主体(CPU或DMA控制器)访问内存时,无论如何也不需要barrier;但如果有两个或更多主体访问内存,且其中有一个在观测另一个,就需要barrier了。
    2. IA32 CPU调用有lock前缀的指令,或者如xchg这样的指令,会导致其它的CPU也触发一定的动作来同步自己的Cache。CPU的#lock引脚链接到北桥芯片(North Bridge)的#lock引脚,当带lock前缀的执行执行时,北桥芯片会拉起#lock电平,从而锁住总线,直到该指令执行完毕再放开。 而总线加锁会自动invalidate所有CPU对 _该指令涉及的内存的Cache,因此barrier就能保证所有CPU的Cache一致性。
    3. lock前缀(或cpuid、xchg等指令)使得本CPU的Cache写入了内存,该写入动作也会引起别的CPU invalidate其Cache。IA32在每个CPU内部实现了Snoopying(BUS-Watching)技术,监视着总线上是否发生了写内存操作(由某个CPU或DMA控制器发出的),只要发生了,就invalidate相关的Cache line。 因此,只要lock前缀导致本CPU写内存,就必将导致所有CPU去invalidate其相关的Cache line。

    两个地方可能除外:

    • 如果采用write-through策略,则根本不存在缓存一致性问题(Linux对全部内存采用write-back策略);
    • TLB也是Cache,但它的一致性(至少在IA32上)不能通过Snooping技术解决,而是要发送INVALIDATE_TLB_VECTOR这个IPI给其它的CPU。

    MESI协议

    M: Modified,已修改
    E: Exclusive,排他
    S: Shared,共享
    I: Invalid,无效

    IA32 的CPU实现了MESI协议来保证Cache coherence。 CPU的总线监测单元,始终监视着总线上所有的内存写操作,以便随时调整自己的Cache状态。

    -> Modified。 本CPU写,则直接写到Cache,不产生总线事物;其它CPU写,则不涉及本CPU的Cache,其它CPU读,则本CPU需要把Cache line中的数据提供给它,而不是让它去读内存。

    -> Exclusive。只有本CPU有该内存的Cache,而且和内存一致。 本CPU的写操作会导致转到Modified状态。

    -> Shared。 多个CPU都对该内存有Cache,而且内容一致。任何一个CPU写自己的这个Cache都必须通知其它的CPU。

    -> Invalid。 一旦Cache line进入这个状态,CPU读数据就必须发出总线事物,从内存读。


     

    DMA写策略

    1. Write through策略。 这种情形比较简单。

    -> 本CPU写内存,是write through的,因此无论什么时候DMA读内存,读到的都是正确数据。
    -> DMA写内存,如果DMA要写的内存被本CPU缓存了,那么必须Invalidate这个Cache line。下次CPU读它,就
    直接从内存读。

    2. Write back策略。 这种情形相当复杂。

    -> DMA读内存。被本CPU总线监视单元发现,而且本地Cache中有Modified数据,本CPU就截获DMA的内存读操作,
    把自己Cache Line中的数据返回给它。

    -> DMA写内存。而且所写的位置在本CPU的Cache中,这又分两种情况:

    • Cache Line状态未被CPU修改过(即cache和内存一致),那么invalidate该cache line。
    • Cache Line状态已经被修改过,又分2种情况:
      • DMA写操作会替换CPU Cache line所对应的整行内存数据,那么DMA写,CPU则invalidate自己的Cache Line。
      • DMA写操作只替换Cache Line对应的内存数据的一部分,那么CPU必须捕获DMA写操作的新数据(即DMA想把它写入内存的),用来更新Cache Line的相关部分。

    http://en.wikipedia.org/wiki/Memory_ordering#Compiler_memory_barrier

    http://www.cppblog.com/tx7do/archive/2011/08/30/154701.aspx

    http://en.wikipedia.org/wiki/Memory_barrier

  • 相关阅读:
    阿里巴巴微服务开源项目盘点(持续更新)
    云计算、大数据、编程语言学习指南下载,100+技术课程免费学!这份诚意满满的新年技术大礼包,你Get了吗?
    【机器学习PAI实战】—— 玩转人工智能之综述
    泡沫下的破浪者,智能语音产品到底落地何处?
    我们总结了每个技术团队都会遇到的 4 个难题
    在 Ali Kubernetes 系统中,我们这样实践混沌工程
    云上护航服务—保障云上的尖峰时刻
    本地 vs. 云:大数据厮杀的最终幸存者会是谁?— InfoQ专访阿里云智能通用计算平台负责人关涛
    WAF开放规则定义权:专家策略+用户自定义策略=Web安全
    队列的其本应用_迷官问题
  • 原文地址:https://www.cnblogs.com/whyandinside/p/2560099.html
Copyright © 2011-2022 走看看