zoukankan      html  css  js  c++  java
  • HashMap

    HashMap作为最常见的集合,设计的非常巧妙,里面有许多细节及优化技巧值得我们深入学习。HashMap是线程不安全的,所有对应的设计了线程安全的ConcurrentHashMap,通过细粒度的锁实现了线程安全。

    1、存储的数据结构

    HashMap继承了Map<K, V>,存储的是一对键值对,将键映射到值的对象,一个映射不能包含重复的键,每个键只能映射到一个值。

    2、底层数据结构

    JDK1.8之前,HashMap是数组+单向链表实现的,JDK1.8开始数组+单向链表+红黑树实现

    3、HashMap 遍历使用

            Map<Integer, String> map = new HashMap<>();
            map.put(1, "Arya");
            map.put(2, "Sum");
            map.put(3, "Sesi");
            map.put(4, "Sansa");
            
            // 1 遍历键值
            Set<Entry<Integer, String>> set = map.entrySet();
            for (Entry entry : set) {
                System.out.println(entry.getKey() + " -> " + entry.getValue());
            }
            
            System.out.println("-----------------------");
            // 2 遍历键
            for (Integer key : map.keySet()) {
                System.out.println(key + " -> " + map.get(key));
            }
            
            System.out.println("-----------------------");
            // 3 遍历值
            for (String value : map.values()) {
                System.out.println(value);
            }
            
            System.out.println("-----------------------");
            int key1 = 0;
            // 4 foreach遍历
            map.forEach((key, value) -> System.out.println(key + " -> " + value));

     

    4、实现原理

    4.1、存储结构

    HashMap 是一个链表散列结构,即数组与链表的结合体,HashMap底层是一个数组结构,数组中每一项又是一个链表。当链表的长度超过8时,链表将会转为红黑树。如下图所示:

     

     

    新建一个HashMap时,就会初始化一个长度为16的数组。每个元素存储的是一个链表的头结点,这些元素添加的算法是通过hash(key)%len,实际优化为:(table.length -1) & h。

     

    4.2、核心变量

    (1) Node<K, V>[] table: 节点数组,底层数据容器
    (2) Node(int hash, K key, V value, Node<K,V> next):节点
    (3) DEFAULT_INITIAL_CAPACITY: 默认大小16
    (4) DEFAULT_LOAD_FACTOR: 默认负载因子0.75
    (5) TREEIFY_THRESHOLD: 临界值8

     

    4.3、put 存储逻辑

    当我们往HashMap的put元素时,先根据元素的key的hashCode计算hash值,根据hash值与数组length计算这个元素在数组中的位置,如果数组该位置已经存放其他元素了,那么在这个位置上的元素将以链表的形式存放,新加入元素的放在链头,最先加入的放在链尾。如果数组该位置上没有元素,则使用传入的参数新增一个节点并放在该索引位置。JDK1.8以后,HashMap 采用数组 + 链表 + 红黑树实现,链表长度超过8时,将链表转为红黑树,这样可以大大减少查找时间。

     

     public V put(K key, V value) {
            return putVal(hash(key), key, value, false, true);
     }

     

    final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                       boolean evict) {
            Node<K,V>[] tab; Node<K,V> p; int n, i;
            if ((tab = table) == null || (n = tab.length) == 0)
                n = (tab = resize()).length;
            if ((p = tab[i = (n - 1) & hash]) == null)
                tab[i] = newNode(hash, key, value, null);
            else {
                Node<K,V> e; K k;
                if (p.hash == hash &&
                    ((k = p.key) == key || (key != null && key.equals(k))))
                    e = p;
                else if (p instanceof TreeNode)
                    e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
                else {
                    for (int binCount = 0; ; ++binCount) {
                        if ((e = p.next) == null) {
                            p.next = newNode(hash, key, value, null);
                            if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                                treeifyBin(tab, hash);
                            break;
                        }
                        if (e.hash == hash &&
                            ((k = e.key) == key || (key != null && key.equals(k))))
                            break;
                        p = e;
                    }
                }
                if (e != null) { // existing mapping for key
                    V oldValue = e.value;
                    if (!onlyIfAbsent || oldValue == null)
                        e.value = value;
                    afterNodeAccess(e);
                    return oldValue;
                }
            }
            ++modCount;
            if (++size > threshold)
                resize();
            afterNodeInsertion(evict);
            return null;
    }

     

    (1) 如何计算新添加的元素存放的位置

    首先调用hash(Object key) 对key值进行hash计算,key的hashCode与 hashCode无符号右移16之后再进行异或运算,保证对key进行了充分的散列。

    static final int hash(Object key) {
            int h;
            return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

     

    添加之前先对table进行初始化(table未初始化,即第一次添加元素时)或者扩容(数组长度超过阈值=length * DEFAULT_LOAD_FACTOR)。

    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;

     

    初始化及扩容方法

    final Node<K,V>[] resize() {
            Node<K,V>[] oldTab = table;
            int oldCap = (oldTab == null) ? 0 : oldTab.length;
            int oldThr = threshold;
            int newCap, newThr = 0;
            if (oldCap > 0) {
                if (oldCap >= MAXIMUM_CAPACITY) {
                    threshold = Integer.MAX_VALUE;
                    return oldTab;
                }
                else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                         oldCap >= DEFAULT_INITIAL_CAPACITY)
                    newThr = oldThr << 1; // double threshold
            }
            else if (oldThr > 0) // initial capacity was placed in threshold
                newCap = oldThr;
            else {               // zero initial threshold signifies using defaults
                newCap = DEFAULT_INITIAL_CAPACITY;
                newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
            }
            if (newThr == 0) {
                float ft = (float)newCap * loadFactor;
                newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                          (int)ft : Integer.MAX_VALUE);
            }
            threshold = newThr;
            @SuppressWarnings({"rawtypes","unchecked"})
                Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
            table = newTab;
            if (oldTab != null) {
                for (int j = 0; j < oldCap; ++j) {
                    Node<K,V> e;
                    if ((e = oldTab[j]) != null) {
                        oldTab[j] = null;
                        if (e.next == null)
                            newTab[e.hash & (newCap - 1)] = e;
                        else if (e instanceof TreeNode)
                            ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                        else { // preserve order
                            Node<K,V> loHead = null, loTail = null;
                            Node<K,V> hiHead = null, hiTail = null;
                            Node<K,V> next;
                            do {
                                next = e.next;
                                if ((e.hash & oldCap) == 0) {
                                    if (loTail == null)
                                        loHead = e;
                                    else
                                        loTail.next = e;
                                    loTail = e;
                                }
                                else {
                                    if (hiTail == null)
                                        hiHead = e;
                                    else
                                        hiTail.next = e;
                                    hiTail = e;
                                }
                            } while ((e = next) != null);
                            if (loTail != null) {
                                loTail.next = null;
                                newTab[j] = loHead;
                            }
                            if (hiTail != null) {
                                hiTail.next = null;
                                newTab[j + oldCap] = hiHead;
                            }
                        }
                    }
                }
            }
            return newTab;
        }
    View Code

     

    不必看懂全部代码,看关键的部分即可。

     newCap = DEFAULT_INITIAL_CAPACITY;
     newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);

    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap]; table = newTab;

     

    初始化数组之后计算新增元素的存放位置,在putVal()里实现,如果该位置没有元素则直接放入即可。

    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);

     

    如果该位置已经存在元素,则进行链表操作,先判断该位置所有节点与新增节点是否存在重复的情况(key的hash值相同,且通过equals()判断结果为true),重复则直接覆盖原值;hash值相等equals判断不同则表示元素不重复,添加到链表尾部。

    判断头节点是否与新增元素相同,相同则直接覆盖。

    if (p.hash == hash &&((k = p.key) == key || (key != null && key.equals(k))))
        e = p;

     

    判断其中链表中的某个节点是否与新增相同,相同则覆盖,不存在相同的元素则直接添加至链表尾部。treeifyBin(tab, hash)暂时不管。

     else {
                    for (int binCount = 0; ; ++binCount) {
                        if ((e = p.next) == null) {
                            p.next = newNode(hash, key, value, null);
                            if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                                treeifyBin(tab, hash);
                            break;
                        }
                        if (e.hash == hash &&
                            ((k = e.key) == key || (key != null && key.equals(k))))
                            break;
                        p = e;
                    }
        }

     

    当链表长度超过8时,对链表进行树化操作,将链表转为红黑树结构。

    final void treeifyBin(Node<K,V>[] tab, int hash) {
            int n, index; Node<K,V> e;
            if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
                resize();
            else if ((e = tab[index = (n - 1) & hash]) != null) {
                TreeNode<K,V> hd = null, tl = null;
                do {
                    TreeNode<K,V> p = replacementTreeNode(e, null);
                    if (tl == null)
                        hd = p;
                    else {
                        p.prev = tl;
                        tl.next = p;
                    }
                    tl = p;
                } while ((e = e.next) != null);
                if ((tab[index] = hd) != null)
                    hd.treeify(tab);
            }
        }
    View Code

     

    关键的算法:

    ① return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16)

    将hashCode的高16位与hashCode进行异或运算,主要是为了在table的length较小的时候,让高位也参与运算,并且不会有太大的开销,提高性能且让hashCode更加散列。保证hash值的后几位尽可能的不一样

     

     

    ② i = (n - 1) & hash]

    (n - 1) & hash等同于 hash%n,采用位算符效率更高,且能尽量保证hash值的散列结果,如key的hash值为100,计算过程如下:

    100 % 16 = 4

    100 转为二进制:0110 0100

    n-1  转为二进制:0000 1111

    进行 &运算结果如下:

    运算结果的后几位与hash值的后几位基本上保持一致,采用此算法既提高了效率又保证了结果与原值一样散列。

     

    ③ 扩容之后原元素存储的位置

    扩容之后,根据原来的索引算法 e.hash & (n-1) 与e.hash & oldCap算法,原来的元素新索引为原索引或者(原索引+原数组长度),

        do {
            next = e.next;
            if ((e.hash & oldCap) == 0) {
                if (loTail == null)
                    loHead = e;
                else
                    loTail.next = e;
                loTail = e;
            }
            else {
                if (hiTail == null)
                    hiHead = e;
                else
                    hiTail.next = e;
                hiTail = e;
            }
        } while ((e = next) != null);
        

    if (loTail != null) { loTail.next = null; newTab[j] = loHead; } if (hiTail != null) { hiTail.next = null; newTab[j + oldCap] = hiHead; }

     

    继续使用上面的例子,如key的hash值为100,长度为16时存储的位置为4,长度扩容为32时,新索引算法根据:

    e.hash & oldCap 计算结果为0,则新索引与原索引一样,结算结果不为0,则新索引 = 原索引 + 原数组长度

    e.hash & oldCap

    结果为0表示hash值的倒数第5位为0,结果为1表示hash值的倒数第5位为1;

    e.hash & oldCap结果为0,那么数组扩容之后的计算结果(e.hash & (newCap - 1))与(e.hash & (oldCap- 1))一致;

    e.hash & oldCap结果为1,那么数组扩容之后的计算结果(e.hash & (newCap - 1)) = (e.hash & (oldCap- 1)) + oldCap;

     

    4.4、get 读取逻辑

    从HashMap 中get元素时,首先计算key的hash值,找到数组中对应位置的某一元素,然后根据key的equals方法从对应位置的链表中找到需要的元素。

    如果第一个点是TreeNode,说明该节点采用了红黑树结构处理冲突,根据key的equals方法便利红黑树,得到节点值。

     

    4.5、HashMap 扩容算法

    当HashMap中的元素越来越多的时候,hash冲突的几率也就越来越高,因为数组的长度是固定的。所以为了提高查询的效率,就要对HashMap的数组进行扩容,在对HashMap数组进行扩容时,就会出现性能问题:原数组中的数据必须重新计算其在新数组中的位置,并放进去,这就是resize。

    HashMap什么时候进行扩容呢?当HashMap中的元素个数 > 数组大小 * loadFactor时,就会进行数组扩容,loadFactor的默认值为0.75,这是一个折中的取值。默认情况下,数组大小为16,那么当HashMap中元素个数超过16 * 0.75=12的时候,就把数组的大小扩展为 216=32,即扩大一倍,然后重新计算每个元素在数组中的位置,而这是一个非常消耗性能的操作,所以如果我们已经预知HashMap中元素的个数,那么预设元素的个数能够有效的提高HashMap的性能。

     

    4.6、总结

    HashMap 在底层将 key-value 当成一个整体进行处理,这个整体就是一个 Node 对象。HashMap 底层采用一个 Node<K,V>[] 数组来保存所有的 key-value 对,当需要存储一个 Node 对象时,会根据hash算法来决定其在数组中的存储位置,在根据equals方法决定其在该数组位置上的链表中的存储位置;当需要取出一个Entry时,也会根据hash算法找到其在数组中的存储位置,再根据equals方法从该位置上的链表中取出该Node。

     

    5、细节

    5.1、table 数组长度为什么永远为2的幂次方

    通过源码我们可以看到HashMap在初始化时,对数组容量进行了幂化处理:

     1     public HashMap(int initialCapacity, float loadFactor) {
     2         if (initialCapacity < 0)
     3             throw new IllegalArgumentException("Illegal initial capacity: " +
     4                                                initialCapacity);
     5         if (initialCapacity > MAXIMUM_CAPACITY)
     6             initialCapacity = MAXIMUM_CAPACITY;
     7         if (loadFactor <= 0 || Float.isNaN(loadFactor))
     8             throw new IllegalArgumentException("Illegal load factor: " +
     9                                                loadFactor);
    10         this.loadFactor = loadFactor;
    11         this.threshold = tableSizeFor(initialCapacity);
    12     }

      

    幂化方法tableSizeFor(),它的功能返回大于等于输入参数的2的整数次幂的数,比如10返回16,10000返回16384。该算法让最高位的1后面的位全变为1,最后让结果n+1,即得到了2的整数次幂。

    1 static final int tableSizeFor(int cap) {
    2         int n = cap - 1;
    3         n |= n >>> 1;
    4         n |= n >>> 2;
    5         n |= n >>> 4;
    6         n |= n >>> 8;
    7         n |= n >>> 16;
    8         return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    9     }

      那么为什么要这么设置呢,原因总结下来有:

      (1) 当数组长度为2的幂次方时,可以使用位运算来计算元素在数组中的位置,位运算相对高效;

    (2) 增加hash值的随机性,减少hash冲突;如果length为2的幂次方,length-1 转为二进制时必定全是都是11111...的形式,这样使用hash值与length计算元素位置时,所有的位都能参与计算,如果不是2的幂次方,长度转为二进制可能包含0,与hash值与运算时,为0永远为0,起不到散列作用,散列结果出现冲突的概率相对大;

    (3) 数组长度为2的幂次方,扩容后计算原来元素存放位置,不用再逐个重新计算,只需要判断hash值新增的bit位是1还是0,0则索引不变,1则新索引=原索引+原数组容量;

     

    5.2 链表树化

    • 链表长度大于8;
    • table数组长度 ≥ 64;

     为什么要table数组容量大于64才树化,因为当table数组容量较小时,键值对节点hash的碰撞率会较高,进而导致链表长度较长,容易树化,此时应该先扩容而不是立刻树化,树化后的增、删、查相对复杂。

     

    5.3 查找

    HashMap查找也是非常快的,查找一个元素首先要知道key的hash值,HashMap中并不是直接通过key的hashCode方法获取hash值,而是通过内部自定义方法计算hash值的。

    static final int hash(Object key) {
            int h;
            return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
        }

    (h = key.hashCode()) ^ (h >>> 16) 是为了让高位数据与低位数据进行异或,变相让高位数据参与到计算中,int有32位,右移16位就能让低16位和高16位进行异或,进一步增加hash值的随机性。

     

  • 相关阅读:
    MAVLINK协议
    rtt之通用bootloader
    easy flash &easy log
    电源适配器DC插头规格
    Jquery实现仿腾讯微薄的广播发表
    可供前端工程师选择的精彩CSS框架
    javascript实现记录文本框内文字个数
    Jquery仿IGoogle实现可拖动窗口(源码)
    jquery javascript 回到顶部功能
    常用的经典jquery代码[转]
  • 原文地址:https://www.cnblogs.com/Latiny/p/10755755.html
Copyright © 2011-2022 走看看