zoukankan      html  css  js  c++  java
  • HashMap系列之成员变量介绍

    1、初始化容量

    1. 当我们根据key的hash确定其在数组的位置时,如果n为2的幂次方,可以保证数据的均匀插入,如果n不是2的幂次方,可能数组的一些位置永远不会插入数据,浪费数组的空间,加大hash冲突;
    2. 一般我们可能会想通过 % 求余来确定位置,只不过性能不如 & 运算。而且当n是2的幂次方时:hash & (length - 1) == hash % length;
    3. HashMap 容量为2次幂的原因,就是为了数据的的均匀分布,减少hash冲突,毕竟hash冲突越大,代表数组中一个链的长度越大,这样的话会降低hashmap的性能;
    4. 如果创建HashMap对象时,输入的数组长度是10,不是2的幂,HashMap通过一系列位移运算和或运算得到离初始容量最近的2的幂次数。

    源代码

    //创建HashMap集合的对象,指定数组长度是10,不是2的幂
    HashMap map = new HashMap<>(10);
    //initialCapacity=13
    public HashMap(int initialCapacity) {
           this(initialCapacity, DEFAULT_LOAD_FACTOR);
    }
    
    public HashMap(int initialCapacity, float loadFactor) {
            if (initialCapacity < 0)
                throw new IllegalArgumentException("Illegal initial capacity: " +
                                                   initialCapacity);
            if (initialCapacity > MAXIMUM_CAPACITY)
                initialCapacity = MAXIMUM_CAPACITY;
            if (loadFactor <= 0 || Float.isNaN(loadFactor))
                throw new IllegalArgumentException("Illegal load factor: " +
                                                   loadFactor);
            this.loadFactor = loadFactor;
        	//initialCapacity==10
            this.threshold = tableSizeFor(initialCapacity);
    }
    
    /**
      * Returns a power of two size for the given target capacity.
      */
    //这个方法就是将10转化成离它最近的2的幂次数16
    static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }
    

    简单分析一波这个tableSizeFor算法。

    1. 首先,为什么要对cap做减1操作。int n = cap - 1;

      这是为了防止cap已经是2的幂。如果cap已经是2的幂, 又没有执行这个减1操作,则执行完后面的几条无符号右移操作之后,返回的capacity将是这个cap的2倍。如果不懂,要看完后面的几个无符号右移之后再回来看看。

    2. 接着就是一系列无符号右移操作

      注意:如果n这时为0了(经过了cap-1之后),则经过后面的几次无符号右移依然是0,最后返回的capacity是1(最后有个(n < 0) ? 1的操作)。

      开始右移!

      第一次右移

      int n = cap - 1;//cap=10  n=9
      n |= n >>> 1;
      	00000000 00000000 00000000 00001001 //9
      |	
      	00000000 00000000 00000000 00000100 //9右移之后变为4
      -------------------------------------------------
      	00000000 00000000 00000000 00001101 //按位异或之后是13
      

      由于n不等于0,则n的二进制表示中总会有一位为1,这时考虑最高位的1。通过无符号右移1位,则将最高位的1右移了1位,再做或操作,使得n的二进制表示中与最高位的1紧邻的右边一位也为1,如:

      00000000 00000000 00000000 00001101
      

      第二次右移

       n |= n >>> 2;//n通过第一次右移变为了:n=13
      	00000000 00000000 00000000 00001101  // 13
      |
          00000000 00000000 00000000 00000011  //13右移之后变为3
      -------------------------------------------------
      	00000000 00000000 00000000 00001111 //按位异或之后是15
      

      注意,这个n已经经过了n |= n >>> 1; 操作。假设此时n为00000000 00000000 00000000 00001101 ,则n无符号右移两位,会将最高位两个连续的1右移两位,然后再与原来的n做或操作,这样n的二进制表示的高位中会有4个连续的1。如:

      00000000 00000000 00000000 00001111 //按位异或之后是15
      

      第三次右移

      n |= n >>> 4;//n通过第一、二次右移变为了:n=15
      	00000000 00000000 00000000 00001111  // 15
      |
          00000000 00000000 00000000 00000000  //15右移之后变为0
      -------------------------------------------------
      	00000000 00000000 00000000 00001111 //按位异或之后是15
      

      这次把已经有的高位中的连续的4个1,右移4位,再做或操作,这样n的二进制表示的高位中正常会有8个连续的1。如00001111 1111xxxxxx 。
      以此类推
      注意,容量最大也就是32bit的正数,因此最后n |= n >>> 16; ,最多也就32个1(但是这已经是负数了。在执行tableSizeFor之前,对initialCapacity做了判断,如果大于MAXIMUM_CAPACITY(2 ^ 30),则取MAXIMUM_CAPACITY。如果等于MAXIMUM_CAPACITY(2 ^ 30),会执行移位操作。所以这里面的移位操作之后,最大30个1,不会大于等于MAXIMUM_CAPACITY。30个1,加1之后得2 ^ 30) 。
      请看下面的一个完整例子:

    注意,得到的这个capacity却被赋值给了threshold。

    this.threshold = tableSizeFor(initialCapacity);//initialCapacity=10
    

    2.默认的负载因子,默认值是0.75

    static final float DEFAULT_LOAD_FACTOR = 0.75f;
    

    3.集合最大容量

    //集合最大容量的上限是:2的30次幂
    static final int MAXIMUM_CAPACITY = 1 << 30;
    

    4.当链表的值超过8则会转红黑树(1.8新增)

     //当桶(bucket)上的结点数大于这个值时会转成红黑树
     static final int TREEIFY_THRESHOLD = 8;
    

    问题:为什么Map桶中节点个数超过8才转为红黑树?

    Because TreeNodes are about twice the size of regular nodes, we use them only when bins contain enough nodes to warrant use (see TREEIFY_THRESHOLD). And when they become too small (due to removal or resizing) they are converted back to plain bins.  In usages with well-distributed user hashCodes, tree bins are rarely used.  Ideally, under random hashCodes, the frequency of nodes in bins follows a Poisson distribution
    (http://en.wikipedia.org/wiki/Poisson_distribution) with a parameter of about 0.5 on average for the default resizing threshold of 0.75, although with a large variance because of resizing granularity. Ignoring variance, the expected occurrences of list size k are (exp(-0.5)*pow(0.5, k)/factorial(k)).
    The first values are:
    因为树节点的大小大约是普通节点的两倍,所以我们只在箱子包含足够的节点时才使用树节点(参见TREEIFY_THRESHOLD)。当它们变得太小(由于删除或调整大小)时,就会被转换回普通的桶。在使用分布良好的用户hashcode时,很少使用树箱。理想情况下,在随机哈希码下,箱子中节点的频率服从泊松分布
    (http://en.wikipedia.org/wiki/Poisson_distribution),默认调整阈值为0.75,平均参数约为0.5,尽管由于调整粒度的差异很大。忽略方差,列表大小k的预期出现次数是(exp(-0.5)*pow(0.5, k)/factorial(k))。
    第一个值是:
    
    0:    0.60653066
    1:    0.30326533
    2:    0.07581633
    3:    0.01263606
    4:    0.00157952
    5:    0.00015795
    6:    0.00001316
    7:    0.00000094
    8:    0.00000006
    more: less than 1 in ten million
    

    简单一句话概括为什么选择8:

    ​ 选择8因为符合泊松分布,超过8的时候,概率已经非常小了,所以我们选择8这个数字。

    5.当链表的值小于6则会从红黑树转回链表

     //当桶(bucket)上的结点数小于这个值时树转链表
     static final int UNTREEIFY_THRESHOLD = 6;
    

    6.当Map里面的数量超过这个值时,表中的桶才能进行树形化 ,否则桶内元素太多时会扩容,而不是树形化 为了避免进行扩容、树形化选择的冲突,这个值不能小于 4 * TREEIFY_THRESHOLD (8)

    //桶中结构转化为红黑树对应的数组长度最小的值 
    static final int MIN_TREEIFY_CAPACITY = 64;
    

    7、table用来初始化(必须是二的n次幂)(重点)

    //存储元素的数组 
    transient Node<K,V>[] table;
    

    table在JDK1.8中我们了解到HashMap是由数组加链表加红黑树来组成的结构其中table就是HashMap中的数组,jdk8之前数组类型是Entry<K,V>类型。从jdk1.8之后是Node<K,V>类型。只是换了个名字,都实现了一样的接口:Map.Entry<K,V>。负责存储键值对数据的。

    8、 HashMap中存放元素的个数(重点)

    //存放元素的个数,注意这个不等于数组的长度。
     transient int size;
    

    size为HashMap中K-V的实时数量,不是数组table的长度。

    9、 用来记录HashMap的修改次数

    // 每次扩容和更改map结构的计数器
     transient int modCount;  
    

    10、 用来调整大小下一个容量的值计算方式为(容量*负载因子)

    // 临界值 当实际大小(容量*负载因子)超过临界值时,会进行扩容
    int threshold;
    

    11、 哈希表的加载因子(重点)

    // 加载因子
    final float loadFactor;
    

    说明:

    1.loadFactor加载因子,是用来衡量 HashMap 满的程度,表示HashMap的疏密程度,影响hash操作到同一个数组位置的概率,计算HashMap的实时加载因子的方法为:size/capacity,而不是占用桶的数量去除以capacity。capacity 是桶的数量,也就是 table 的长度length。

    loadFactor太大导致查找元素效率低,太小导致数组的利用率低,存放的数据会很分散。loadFactor的默认值为0.75f是官方给出的一个比较好的临界值

    当HashMap里面容纳的元素已经达到HashMap数组长度的75%时,表示HashMap太挤了,需要扩容,而扩容这个过程涉及到 rehash、复制数据等操作,非常消耗性能。,所以开发中尽量减少扩容的次数,可以通过创建HashMap集合对象时指定初始容量来尽量避免。

    同时在HashMap的构造器中可以定制loadFactor。

    构造方法:
    HashMap(int initialCapacity, float loadFactor) 构造一个带指定初始容量和加载因子的空 HashMap。
    

    2.为什么加载因子设置为0.75,初始化临界值是12?

    loadFactor越趋近于1,那么 数组中存放的数据(entry)也就越多,也就越密,也就是会让链表的长度增加,loadFactor越小,也就是趋近于0,数组中存放的数据(entry)也就越少,也就越稀疏。

    如果希望链表尽可能少些。要提前扩容,有的数组空间有可能一直没有存储数据。加载因子尽可能小一些。

    举例:

    例如:加载因子是0.4。 那么16*0.4--->6 如果数组中满6个空间就扩容会造成数组利用率太低了。
    	 加载因子是0.9。 那么16*0.9---->14 那么这样就会导致链表有点多了。导致查找元素效率低。
    

    所以既兼顾数组利用率又考虑链表不要太多,经过大量测试0.75是最佳方案。

    • threshold计算公式:capacity(数组长度默认16) * loadFactor(负载因子默认0.75)。这个值是当前已占用数组长度的最大值。当Size>=threshold的时候,那么就要考虑对数组的resize(扩容),也就是说,这个的意思就是 衡量数组是否需要扩增的一个标准。 扩容后的 HashMap 容量是之前容量的两倍.
  • 相关阅读:
    小学四则运算编程实践
    熟悉编程语言
    俄罗斯方块游戏(修改为无敌版)
    2020-2021-1 20201212《信息安全专业导论》第八周学习总结
    如何学好编程
    python day 4 turtle
    python day 3
    20191206《信息安全专业导论》第五周学习总结
    20191206《信息安全专业导论》第四周学习总结
    20191206《信息安全专业导论》第三周学习总结
  • 原文地址:https://www.cnblogs.com/leiger/p/13283701.html
Copyright © 2011-2022 走看看