zoukankan      html  css  js  c++  java
  • HashMap浅析

    众所周知,HashMap是一个用于存储Key-Value键值对的集合,每一个键值对也叫做Entry。这些个键值对(Entry)分散存储在一个数组当中,这个数组就是HashMap的主干。

    HashMap数组每一个元素的初始值都是Null。

    对于HashMap,我们最常使用的是两个方法:Get 和 Put。

    1.Put方法的原理

    调用Put方法的时候发生了什么呢?

    比如调用 hashMap.put("apple", 0) ,插入一个Key为“apple"的元素。这时候我们需要利用一个哈希函数来确定Entry的插入位置(index):

    index = Hash(“apple”)

    假定最后计算出的index是2,那么结果如下:

     

    但是,因为HashMap的长度是有限的,当插入的Entry越来越多时,再完美的Hash函数也难免会出现index冲突的情况。比如下面这样:

     

    这时候该怎么办呢?我们可以利用链表来解决。

    HashMap数组的每一个元素不止是一个Entry对象,也是一个链表的头节点。每一个Entry对象通过Next指针指向它的下一个Entry节点。当新来的Entry映射到冲突的数组位置时,只需要插入到对应的链表即可:

    需要注意的是,新来的Entry节点插入链表时,使用的是“头插法”。至于为什么不插入链表尾部,后面会有解释。

     

    2.Get方法的原理

    使用Get方法根据Key来查找Value的时候,发生了什么呢?

    首先会把输入的Key做一次Hash映射,得到对应的index:

    index = Hash(“apple”)

    由于刚才所说的Hash冲突,同一个位置有可能匹配到多个Entry,这时候就需要顺着对应链表的头节点,一个一个向下来查找。假设我们要查找的Key是“apple”:

     

    第一步,我们查看的是头节点Entry6,Entry6的Key是banana,显然不是我们要找的结果。

    第二步,我们查看的是Next节点Entry1,Entry1的Key是apple,正是我们要找的结果。

    之所以把Entry6放在头节点,是因为HashMap的发明者认为,后插入的Entry被查找的可能性更大。

    HashMap的初始长度默认为16,每次扩容都是2的整数倍

    之前说过,从Key映射到HashMap数组的对应位置,会用到一个Hash函数:

    index = Hash(“apple”)

    如何实现一个尽量均匀分布的Hash函数呢?我们通过利用Key的HashCode值来做某种运算。

    index = HashCode(Key) & (Length - 1)

    下面我们以值为“book”的Key来演示整个过程:

    1.计算book的hashcode,结果为十进制的3029737,二进制的101110001110101110 1001。

    2.假定HashMap长度是默认的16,计算Length-1的结果为十进制的15,二进制的1111。

    3.把以上两个结果做与运算,101110001110101110 1001 & 1111 = 1001,十进制是9,所以 index=9。

    可以说,Hash算法最终得到的index结果,完全取决于Key的Hashcode值的最后几位。

    假设HashMap的长度是10,重复刚才的运算步骤:我们可以发现有些index结果的出现几率会更大,而有些index结果永远不会出现(比如0111)!

    这样,显然不符合Hash算法均匀分布的原则。

    反观长度16或者其他2的幂,Length-1的值是所有二进制位全为1,这种情况下,index的结果等同于HashCode后几位的值。只要输入的HashCode本身分布均匀,Hash算法的结果就是均匀的。

    HashMap的容量是有限的。当经过多次元素插入,使得HashMap达到一定饱和度时,Key映射位置发生冲突的几率会逐渐提高。

    这时候,HashMap需要扩展它的长度,也就是进行Resize。

    影响发生Resize的因素有两个:

    1.Capacity

    HashMap的当前长度。上一期曾经说过,HashMap的长度是2的幂。

    2.LoadFactor

    HashMap负载因子,默认值为0.75f。

    衡量HashMap是否进行Resize的条件如下:

    HashMap.Size >= Capacity * LoadFactor

    具体步骤如下

    1.扩容

    创建一个新的Entry空数组,长度是原数组的2倍。

    2.ReHash

    遍历原Entry数组,把所有的Entry重新Hash到新数组。为什么要重新Hash呢?因为长度扩大以后,Hash的规则也随之改变。

    1 void transfer(Entry[] newTable, boolean rehash)
    {
      int newCapacity = newTable.length;
      for (Entry<K,V> e : table) {
        while(null != e)
        {
          Entry<K,V> next = e.next;
          if (rehash)
          {
            e.hash = null == e.key ? 0 : hash(e.key);
          }
        int i = indexFor(e.hash, newCapacity);
        e.next = newTable[i];
        newTable[i] = e; e = next;
        }
       }
      }

    Hashmap的Resize包含扩容和ReHash两个步骤,ReHash在并发的情况下可能会形成链表环

    因此高并发的情况下我们一般使用ConcurrentHashMap

    理解ConcurrentHashMap关键是要理解Segment

    Segment是什么呢?Segment本身就相当于一个HashMap对象。

    同HashMap一样,Segment包含一个HashEntry数组,数组中的每一个HashEntry既是一个键值对,也是一个链表的头节点。

    像这样的Segment对象,在ConcurrentHashMap集合中有多少个呢?有2的N次方个,共同保存在一个名为segments的数组当中。

    因此整个ConcurrentHashMap的结构如下:

    可以说,ConcurrentHashMap是一个二级哈希表。在一个总的哈希表下面,有若干个子哈希表。

    Case1:不同Segment的并发写入

    不同Segment的写入是可以并发执行的。

    Case2:同一Segment的一写一读

     

    同一Segment的写和读是可以并发执行的。

    Case3:同一Segment的并发写入

     

    Segment的写入是需要上锁的,因此对同一Segment的并发写入会被阻塞。

    由此可见,ConcurrentHashMap当中每个Segment各自持有一把锁。在保证线程安全的同时降低了锁的粒度,让并发操作效率更高。

    Get方法:

    1.为输入的Key做Hash运算,得到hash值。

    2.通过hash值,定位到对应的Segment对象

    3.再次通过hash值,定位到Segment当中数组的具体位置。

    Put方法:

    1.为输入的Key做Hash运算,得到hash值。

    2.通过hash值,定位到对应的Segment对象

    3.获取可重入锁

    4.再次通过hash值,定位到Segment当中数组的具体位置。

    5.插入或覆盖HashEntry对象。

    6.释放锁。

    Size方法的目的是统计ConcurrentHashMap的总元素数量, 自然需要把各个Segment内部的元素数量汇总起来。

    但是,如果在统计Segment元素数量的过程中,已统计过的Segment瞬间插入新的元素,这时候该怎么办呢?

    ConcurrentHashMap的Size方法是一个嵌套循环,大体逻辑如下:

    1.遍历所有的Segment。

    2.把Segment的元素数量累加起来。

    3.把Segment的修改次数累加起来。

    4.判断所有Segment的总修改次数是否大于上一次的总修改次数。如果大于,说明统计过程中有修改,重新统计,尝试次数+1;如果不是。说明没有修改,统计结束。

    5.如果尝试次数超过阈值,则对每一个Segment加锁,再重新统计。

    6.再次判断所有Segment的总修改次数是否大于上一次的总修改次数。由于已经加锁,次数一定和上次相等。

    7.释放锁,统计结束。

    JDK1.8中采用的是位桶+链表/红黑树的方式,也是非线程安全的。当某个位桶的链表的长度达到某个阀值的时候,这个链表就将转换成红黑树。

    这样在查找键的时候,如果碰撞较多,自动转为红黑树后, 查找的时间复杂度从O(n)降为O(logn)

    在扩容的时候

    元素在重新计算hash之后,因为n变为2倍,那么n-1的mask范围在高位多1bit(红色),因此新的index就会发生这样的变化:

    hashMap 1.8 哈希算法例图2

    不需要像JDK1.7的实现那样重新计算hash,只需要看看原来的hash值新增的那个bit是1还是0就好了,是0的话索引没变,是1的话索引变成“原索引+oldCap”,可以看看下图为16扩充为32的resize示意图:

  • 相关阅读:
    【转】Android事件分发机制完全解析,带你从源码的角度彻底理解(下)
    使用cacti监控服务器
    Vsphere client 无法登陆VCenter 处理的方法
    ESXI主机打开shell后主机警告处理
    Kiwi Syslog server 日志服务器搭建
    Linux lamp环境编译安装
    tar.bz2解压
    安装 MYSQL exec: g++: not found 报错
    mysql 编译安装提示“checking for termcap functions library... configure: error: No curses/termcap library found”
    Linux mysql 数据库忘记root密码
  • 原文地址:https://www.cnblogs.com/icysnow/p/8057893.html
Copyright © 2011-2022 走看看