zoukankan      html  css  js  c++  java
  • 伪共享 (图解)


    无锁编程(Lock Free)框架 系列文章:

    在介绍 无锁框架 disruptor 之前,作为前置的知识,首先需要了解 伪共享问题

    1 CPU的结构

    下图是计算的基本结构。L1、L2、L3分别表示一级缓存、二级缓存、三级缓存,越靠近CPU的缓存,速度越快,容量也越小。所以L1缓存很小但很快,并且紧靠着在使用它的CPU内核;L2大一些,也慢一些,并且仍然只能被一个单独的CPU核使用;L3更大、更慢,并且被单个插槽上的所有CPU核共享;最后是主存,由全部插槽上的所有CPU核共享。

    计算机CPU与缓存示意图

    级别越小的缓存,越接近CPU, 意味着速度越快且容量越少。

    L1是最接近CPU的,它容量最小,速度最快,每个核上都有一个L1 Cache(准确地说每个核上有两个L1 Cache, 一个存数据 L1d Cache, 一个存指令 L1i Cache);

    L2 Cache 更大一些,例如256K,速度要慢一些,一般情况下每个核上都有一个独立的L2 Cache;二级缓存就是一级缓存的缓冲器:一级缓存制造成本很高因此它的容量有限,二级缓存的作用就是存储那些CPU处理时需要用到、一级缓存又无法存储的数据。

    L3 Cache是三级缓存中最大的一级,例如12MB,同时也是最慢的一级,在同一个CPU插槽之间的核共享一个L3 Cache。三级缓存和内存可以看作是二级缓存的缓冲器,它们的容量递增,但单位制造成本却递减。

    L3 Cache和L1,L2 Cache有着本质的区别。,L1和L2 Cache都是每个CPU core独立拥有一个,而L3 Cache是几个Cores共享的,可以认为是一个更小但是更快的内存。

    2 缓存行 cache line

    缓存,是由缓存行Cache Line组成的。一般一行缓存行有64字节。所以使用缓存时,并不是一个一个字节使用,而是一行缓存行、一行缓存行这样使用;换句话说,CPU存取缓存都是按照一行,为最小单位操作的。

    Cache Line可以简单的理解为CPU Cache中的最小缓存单位。目前主流的CPU Cache的Cache Line大小都是64Bytes。假设我们有一个512字节的一级缓存,那么按照64B的缓存单位大小来算,这个一级缓存所能存放的缓存个数就是512/64 = 8个。

    3伪共享(False Sharing)问题(全网最清晰的解答)

    CPU的缓存系统是以缓存行(cache line)为单位存储的,一般的大小为64bytes。在多线程程序的执行过程中,存在着一种情况,多个需要频繁修改的变量存在同一个缓存行当中。

    假设:有两个线程分别访问并修改X和Y这两个变量,X和Y恰好在同一个缓存行上,这两个线程分别在不同的CPU上执行。那么每个CPU分别更新好X和Y时将缓存行刷入内存时,发现有别的修改了各自缓存行内的数据,这时缓存行会失效,从L3中重新获取。这样的话,程序执行效率明显下降。为了减少这种情况的发生,其实就是避免X和Y在同一个缓存行中,可以主动添加一些无关变量将缓存行填充满,比如在X对象中添加一些变量,让它有64 Byte那么大,正好占满一个缓存行。

    两个线程(Thread1 和 Thread2)同时修改一个同一个缓存行上的数据 X Y:

    如果线程1打算更改a的值,而线程2准备更改b的值:

    
    
    Thread1:x=3;
    
    Thread2:y=2;
    

    由x值被更新了,所以x值需要在线程1和线程2之间传递(从线程1到线程2),x的变更会引起整块64bytes被交换,因为cpu核之间以cache lines的形式交换数据(cache lines的大小一般为64bytes)。

    每个线程在不同的核中被处理。x,y是两个频繁修改的变量,x,y,还位于同一个缓存行.

    如果,CPU1修改了变量x时,L3中的缓存行数据就失效了,也就是CPU2中的缓存行数据也失效了,CPU2需要的y需要重新从内存加载。

    如果,CPU2修改了变量y时,L3中的缓存行数据就失效了,也就是CPU1中的缓存行数据也失效了,CPU1需要的x需要重新从内存加载。

    x,y在两个cpu上进行修改,本来应该是互不影响的,但是由于缓存行在一起,导致了相互受到了影响。

    伪共享问题(False Sharing) 全网最清晰的解答

    对缓存行中的单个变量进行修改了,导致整个缓存行数据也就失效了,并且,会导致其他CPU的含有被改动的共享变量的缓存行也失效了,就是所谓的伪共享问题。

    而缓存行是为了解决缓存一致性的问题,所引入的。所以,解决缓存一致性的问题,又导致了伪共享问题的出现。

    4伪共享问题 的解决方案

    简单的说,就是 以空间换时间: 使用占位字节,将变量的所在的 缓冲行 塞满。

    disruptor 无锁框架就是这么干的。

    5缓冲行 塞满的例子

    下面是一个填充了的缓存行的,尝试 p1, p2, p3, p4, p5, p6为AtomicLong的value的缓存行占位,将AtomicLong的value变量的所在的 缓冲行 塞满,

    代码如下:

    package com.baidu.fsg.uid.utils;
    
    //...省略import
    public class PaddedAtomicLong extends AtomicLong {
        private static final long serialVersionUID = -3415778863941386253L;
    
    ​```
    /** Padded 6 long (48 bytes) */
    public volatile long p1, p2, p3, p4, p5, p6 = 7L;
    
    /**
     * Constructors from {@link AtomicLong}
     */
    public PaddedAtomicLong() {
        super();
    }
    
    public PaddedAtomicLong(long initialValue) {
        super(initialValue);
    }
    
    /**
     * To prevent GC optimizations for cleaning unused padded references
     */
    public long sumPaddingToPreventOptimization() {
        return p1 + p2 + p3 + p4 + p5 + p6;
    }
    ​```
    
    }
    

    例子的部分结果如下:

    printable = com.crazymakercircle.basic.demo.cas.busi.PaddedAtomicLong object internals:
     OFFSET  SIZE   TYPE DESCRIPTION                               VALUE
          0     4        (object header)                           01 00 00 00 (00000001 00000000 00000000 00000000) (1)
          4     4        (object header)                           00 00 00 00 (00000000 00000000 00000000 00000000) (0)
          8     4        (object header)                           50 08 01 f8 (01010000 00001000 00000001 11111000) (-134150064)
         12     4        (alignment/padding gap)                  
         16     8   long AtomicLong.value                          0
         24     8   long PaddedAtomicLong.p1                       0
         32     8   long PaddedAtomicLong.p2                       0
         40     8   long PaddedAtomicLong.p3                       0
         48     8   long PaddedAtomicLong.p4                       0
         56     8   long PaddedAtomicLong.p5                       0
         64     8   long PaddedAtomicLong.p6                       7
    Instance size: 72 bytes
    Space losses: 4 bytes internal + 0 bytes external = 4 bytes total
    

    6 伪共享False Sharing在java6/7中解决方案

    如何避免False Sharing在java 6 7 8 中有不同的实现方式, 这篇文章对比了在6/7/8下面的实现。国内的多篇关于伪共享的文章基本都来源于Martin的两篇博客。

    博客1和博客2,博客1主要介绍了什么是False Sharing以及怎么避免False Sharing(在java6的环境下),我在看完这篇文文章后使用他的testbench进行了测试,得到的结果是在java6环境下,使用6个long变量进行填充是不一定能完全避免false sharing,但是我使用了

    public final static class VolatileLong {

    ​ public volatile long q1, q2, q3, q4, q5, q6, q7;

    ​ public volatile long value = 0L;

    ​ public volatile long p1, p2, p3, p4, p5, p6, p7;

    ​ }

    说明:前面的例子,借鉴了这个方案。

    这种方式得到的结果是完全能够避免false sharing,我以此邮件了作者Martin Thompson说明此问题,Martin Thompson很快回了邮件附上了博客2的链接问我是否看过博客2的内容,我读过之后发现博客2写的是在java7的环境下虚拟机层面会对没有使用的变量进行优化,所以会导致false sharing的问题,我觉得这是一个新的问题并不能解释我在java6环境下发生的现象。在java7环境下要使用填充的方式避免false sharing需要绕很多弯弯而且并不一定能够达到效果。所以我觉得我们不能通过这种“黑科技”解决false sharing的问题,包括Martin Thompson的很多人都希望jvm的开发团队能够搞出一套机制能够支持在上层决定多个字段是否可以出现在同一个cache line,所以应大家的响应,在java8中,jvm团队搞出了@Contended注解来进行支持

    7 伪共享False Sharing在java 8中解决方案

    关于@Contended的用法,我们可以参考一个链接,这是jvm团队内部关于JEP-142实现的一个邮件回复,虽然可能和具体实现有所差别,但是参考价值很大。所以LongAdder在java8中的实现已经采用了@Contended

    比起引入填充字段,一个更加简单有效的方式是在你需要避免“false sharing”的字段上标记注解,这可以暗示虚拟机“这个字段可以分离到不同的cache line中”,这是JEP 142的目标。

    JEP引入了 @Contended 注解。在JAVA 8中,缓存行填充终于被JAVA原生支持了。JAVA 8中添加了一个@Contended的注解,添加这个的注解,将会在自动进行缓存行填充。以上的例子可以改为:

    package com.crazymakercircle.basic.demo.cas.busi;
    import sun.misc.Contended;
    public class ContendedDemo
    {
        //有填充的演示成员
        @Contended
        public volatile long padVar;
    
    
    //没有填充的演示成员
    public volatile long notPadVar;
    
    
    }
    

    以上代码使得x和y都在不同的cache line中。@Contended 使得y字段远离了对象头部分。

    printable = com.crazymakercircle.basic.demo.cas.busi.ContendedDemo object internals:
     OFFSET  SIZE   TYPE DESCRIPTION               VALUE
          0     4        (object header)           01 00 00 00 (00000001 00000000 00000000 00000000) (1)
          4     4        (object header)           00 00 00 00 (00000000 00000000 00000000 00000000) (0)
          8     4        (object header)           50 08 01 f8 (01010000 00001000 00000001 11111000) (-134150064)
         12     4        (alignment/padding gap)  
         16     8   long ContendedDemo.padVar      0
         24     8   long ContendedDemo.notPadVar   0
    Instance size: 32 bytes
    Space losses: 4 bytes internal + 0 bytes external = 4 bytes total
    

    执行时,必须加上虚拟机参数-XX:-RestrictContended,@Contended注释才会生效。很多文章把这个漏掉了,那样的话实际上就没有起作用。

    在这里插入图片描述

    新的结果;

    printable = com.crazymakercircle.basic.demo.cas.busi.ContendedDemo object internals:
     OFFSET  SIZE   TYPE DESCRIPTION               VALUE
          0     4        (object header)           01 00 00 00 (00000001 00000000 00000000 00000000) (1)
          4     4        (object header)           00 00 00 00 (00000000 00000000 00000000 00000000) (0)
          8     4        (object header)           50 08 01 f8 (01010000 00001000 00000001 11111000) (-134150064)
         12     4        (alignment/padding gap)  
         16     8   long ContendedDemo.notPadVar   0
         24   128        (alignment/padding gap)  
        152     8   long ContendedDemo.padVar      0
        160   128        (loss due to the next object alignment)
    Instance size: 288 bytes
    Space losses: 132 bytes internal + 128 bytes external = 260 bytes total
    

    @Contended注释还可以添加在类上,每一个成员,都会加上。
    可见至少在JDK1.8以上环境下, 只有@Contended注解才能解决伪共享问题, 但是消耗也很大, 占用了宝贵的缓存, 用的时候要谨慎。

    8 对于伪共享,我们在实际开发中该怎么做?

    通过上面大篇幅的介绍,我们已经知道伪共享的对程序的影响。那么,在实际的生产开发过程中,我们一定要通过缓存行填充去解决掉潜在的伪共享问题吗?

    其实并不一定。

    首先就是多次强调的,伪共享是很隐蔽的,我们暂时无法从系统层面上通过工具来探测伪共享事件。其次,不同类型的计算机具有不同的微架构(如 32 位系统和 64 位系统的 java 对象所占自己数就不一样),如果设计到跨平台的设计,那就更难以把握了,一个确切的填充方案只适用于一个特定的操作系统。还有,缓存的资源是有限的,如果填充会浪费珍贵的 cache 资源,并不适合大范围应用。最后,目前主流的 Intel 微架构 CPU 的 L1 缓存,已能够达到 80% 以上的命中率。

    综上所述,并不是每个系统都适合花大量精力去解决潜在的伪共享问题


    回到◀疯狂创客圈

    疯狂创客圈 - Java高并发研习社群,为大家开启大厂之门

  • 相关阅读:
    电感(29)之铁氧体磁珠工作原理透彻详解
    电阻(7)之零欧姆电阻
    高速数字逻辑电平(8)之LVDS差分信号深度详解
    每天进步一点点------Error: Can't place pins assigned to pin location Pin_K22 (IOPAD_X41_Y19_N14)
    每天进步一点点------入门视频采集与处理(视频分辨率介绍)
    每天进步一点点------入门视频采集与处理(显示YUV数据)
    每天进步一点点------YUV格式详细解释
    每天进步一点点------入门视频采集与处理(BT656简介)
    每天进步一点点------FPGA 静态时序分析模型——reg2reg
    每天进步一点点------SysTimer
  • 原文地址:https://www.cnblogs.com/crazymakercircle/p/13909102.html
Copyright © 2011-2022 走看看