HashMap的结构和底层实现原理是什么?
HashMap用的是非常常见的结构:数组和链表的结合的数据结构。数组的每个地方都存了Key-Value这样的实例,在JDK8中交做Node实例。因为数组本身所有的位置都为null,所以在put的时候会根据key值hash算出一个index值。但是数组的长度是有限的,当我们在有限的长度下使用随机的Hash函数时,就有机会是的两个key的Hash相同。那么这时候就需要在原来的数组位置上尾插一个(node)形成一个链表。每一个节点都会保存自身的Hash、Key、value、及下个节点。我们来看一下node的源码是什么样的呢?
static class Node<K,V> implements Map.Entry<K,V>{ final int hash; final K key; final V value; Node<K,V> next; }
那么在JDK7中的头插和JDK8中的尾插的区别在哪呢?为什么要进行这样的改变呢?
头插法是什么意思呢?就是新来的值会取代原来的值,原有的值会顺推到链表中去,这主要是因为当时设计师认为后面插入的值查找的概率会比前面的值查找的概率大。那么为什么后来却改成了尾插呢?我们需要从HashMap的扩容机制说起:
数组的容量是有限的,那么在到达一定的数量的时候必然会产生扩容的,也就是resize。那么什么时候去resize呢?
有两个因素:Capacity:HashMap当前的长度。LoadFactor:负载因子,默认值时0.75f。怎么理解呢?比如当前数组的容量为100,当你存进去76的时候就会进行扩容。但是HashMap的扩容并不是简单的扩大容量那么简单。分为两个步骤:
第一步:扩容,创建一个新的数组,长度时原来数组的两倍。
第二步:ReHash:遍历原来的Entry数组,把所有的Entry重新Hash到新数组当中去。
那么为什么要重新Hash到数组上去呢?(如果这么问就已经问的很底层了)
那么为什么我们要重新Hash而不是复制呢?主要时数组的长度扩大之后,Hash规则也会发生改变。Hash的公式是index=HashCode(Key)&(length-1)也就是长度和key进行位运算。说完了扩容机制之后重新回到为什么我们要变头插改文尾插呢?这是因为头插会形成环形节点。(至于为什么需要画图,而我比较懒。)尾插因为链表有了红黑树的部分,大家可以看到代码里面有了很多的if else判断。红黑树的出现也将原来O(n)降低成了O(logn)。所以使用尾插在扩容时不会出现链表成环的问题。
java7在多线程操作HashMap时可能引起死循环原因就是因为这个,在转移的过程中修改了链表中的节点的引用关系。但是Java8虽然不会引起死循环但是同样不建议在多线程中使用HashMap,这是因为put/get方法中都没有添加同步锁,多线程的情况下最容易出现的情况就是无法保证上一秒put的值在下一秒get的时候还是原值,线程安全同样还是无法保证。
那么对于HashMap最难的问题是什么呢?那就是HashMap的初始值是多少呢?
当然是16。
那么为什么是16呢?
说实话,小编第一次见到有人问这个问题的时候想打人HashMap为啥是16呢,这是因为为了保证均匀分布。在使用不是2的幂的数字是,Length-1的值是所有二进制位全为1,这种情况下,index的结果等同于HashCode后几位的值。只要输入的HashCode本身分布均匀,Hash算法的结果就是均匀的。
那么我们为什么重写equals方法的时候需要重写hashCode方法呢?就拿HashMap来举例子。
因为在java中,所有的对象都是继承于Object类,Object类里面有两个方法equals、hashCode,这两个方法都是用来比较两个对象是否相等的。
在未重写equals方法我们是继承了object中的equals方法,那里的这个方法是比较两个对象的内存地址。那么我们new之后2个对象地址肯定不一样。那么在Hash中我们如何要通过相同的hash值去寻找到我们想要的答案呢?那就是equals方法,所以我们在重写equals的时候建议以一定要对hashCode的方法进行重写,以保证相同的对象返回相同的hash值,不同的对象返回不同的hash值。