zoukankan      html  css  js  c++  java
  • HashMap的底层实现原理

    1. 首先我们需要了解数组和链表的特点:

    数组
    数组存储区间是连续的,占用内存严重,所以空间复杂度很大.特点:查询容易,插入和删除困难;
    链表
    链表存储区间是离散的,占用内存比较宽松,空间复杂度很小.特点:查询困难,插入和删除容易;

    哈希表
    哈希表有多中实现方法,我接下来解释的是最常用的一种方法--拉链法

    从上图中我们可以发现哈希表是由数组+链表组成的,一个长度为16的数组中,每一个元素存储的是一个链表的头结点.那么这些这些元素是按什么样的规则存储到数组中?一般是通过hash(key)%len获得,,也就是数组的hash值对数组的长度取模得到的,比如上述的hash表中,12%16=12,28%16=12,108%16=12,140%16=12.所以12,28,108,140都存储在数组的下标为12的位置.

    HashMap其实也是一个线性的数组实现的,所以可以理解为其存储数据的容器就是一个线性数组,这可能让我们很不解,一个线性数组怎么实现按键值对来存取数据呢?

    首先HashMap里面实现了一个静态内部类Entry,其重要的属性有key,value,next,从属性key,value我们就能看出来 Entry就是hashMap键值对实现的一个基础bean,我们上面说到HashMap的基础就是一个线性数组,这个数组就是Entry[],Map里面的内容都保存在Entry[]里面.

     /**
         * The table, resized as necessary. Length MUST Always be a power of two.
         */
        transient Entry[] table;
    

    2. HashMAP的存取实现

    既然是线性数组,为什么能随机存取?这里HashMAP用了一个算法

    存储时:
    int hash = key.hashCode(); // 这个hashCode方法这里不详述,只要理解每个key的hash是一个固定的int值
    int index = hash % Entry[].length;
    Entry[index] = value;
    
    取值时:
    int hash = key.hashCode();
    int index = hash % Entry[].length;
    return Entry[index];
    
    1. put
      如果两个key通过hashMap%Entry[].length得到的index相同,会不会被覆盖?
      这里HashMAP里面用到链式数据结构的概念.上面我们提到过Entry类里面有一个next属性,作者是指向下一个Entry.打个比方, 第一个键值对A进来,通过计算其key的hash得到的index=0,记做:Entry[0] = A。一会后又进来一个键值对B,通过计算其index也等于0,现在怎么办?HashMap会这样做:B.next = A,Entry[0] = B,如果又进来C,index也等于0,那么C.next = B,Entry[0] = C;这样我们发现index=0的地方其实存取了A,B,C三个键值对,他们通过next这个属性链接在一起。所以疑问不用担心。也就是说数组中存储的是最后插入的元素。到这里为止,HashMap的大致实现,我们应该已经清楚了。
    public V put(K key, V value) {
            if (key == null)
                return putForNullKey(value); //null总是放在数组的第一个链表中
            int hash = hash(key.hashCode());
            int i = indexFor(hash, table.length);
            //遍历链表
            for (Entry<K,V> e = table[i]; e != null; e = e.next) {
                Object k;
                //如果key在链表中已存在,则替换为新value
                if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                    V oldValue = e.value;
                    e.value = value;
                    e.recordAccess(this);
                    return oldValue;
                }
            }
            modCount++;
            addEntry(hash, key, value, i);
            return null;
        }
    
    void addEntry(int hash, K key, V value, int bucketIndex) {
        Entry<K,V> e = table[bucketIndex];
        table[bucketIndex] = new Entry<K,V>(hash, key, value, e); //参数e, 是Entry.next
        //如果size超过threshold,则扩充table大小。再散列
        if (size++ >= threshold)
                resize(2 * table.length);
    }
    

    当然HashMAP里面也包含了一些优化方面的实现,例如:Entry[]的长度一定后,随着map里面数据的越来越长,这样同一个index的链就会很长,会不会影响性能?HashMap里面设置一个负载因子(loadFactor),随着map的size越来越大,Entry[]会以一定的规则加长长度。

    负载因子为什么会影响HashMap性能

    首先回忆HashMap的数据结构,

    我们都知道有序数组存储数据,对数据的索引效率都很高,但是插入和删除就会有性能瓶颈(回忆ArrayList),

    链表存储数据,要一次比较元素来检索出数据,所以索引效率低,但是插入和删除效率高(回忆LinkedList),

    两者取长补短就产生了哈希散列这种存储方式,也就是HashMap的存储逻辑.

    而负载因子表示一个散列表的空间的使用程度,有这样一个公式:initailCapacity*loadFactor=HashMap的容量。

    所以负载因子越大则散列表的装填程度越高,也就是能容纳更多的元素,元素多了,链表大了,所以此时索引效率就会降低。

    反之,负载因子越小则链表中的数据量就越稀疏,此时会对空间造成烂费,但是此时索引效率高。

    1. get
     public V get(Object key) {
            if (key == null)
                return getForNullKey();
            int hash = hash(key.hashCode());
            //先定位到数组元素,再遍历该元素处的链表
            for (Entry<K,V> e = table[indexFor(hash, table.length)];
                 e != null;
                 e = e.next) {
                Object k;
                if (e.hash == hash && ((k = e.key) == key || key.equals(k)))
                    return e.value;
            }
            return null;
    }
    
    1. null key的存取
      null key总是存在Entry[]的第一个元素
     private V putForNullKey(V value) {
            for (Entry<K,V> e = table[0]; e != null; e = e.next) {
                if (e.key == null) {
                    V oldValue = e.value;
                    e.value = value;
                    e.recordAccess(this);
                    return oldValue;
                }
            }
            modCount++;
            addEntry(0, null, value, 0);
            return null;
        }
     
        private V getForNullKey() {
            for (Entry<K,V> e = table[0]; e != null; e = e.next) {
                if (e.key == null)
                    return e.value;
            }
            return null;
        }
    
    1. 确定数组index:hashcode%table.length取模
      HashMAP存取 时,都需要计算当前key应该对应Entry[]数组的哪个元素,即计算数组的下标
    /**
         * Returns index for hash code h.
         */
        static int indexFor(int h, int length) {
            return h & (length-1);
        }
    

    按位取并,作用上相当于取模或者取余
    这以为着数组下标相同,并不表示hashCode相同

    1. table初始值的大小
    public HashMap(int initialCapacity, float loadFactor) {
            .....
            // Find a power of 2 >= initialCapacity
            int capacity = 1;
            while (capacity < initialCapacity)
                capacity <<= 1;
            this.loadFactor = loadFactor;
            threshold = (int)(capacity * loadFactor);
            table = new Entry[capacity];
            init();
        }  
    

    注意table初始大小并不是构造函数的initialCapacity(是map的初始化容量)

  • 相关阅读:
    lbs(查看附近的人),看看社交软件如何实现查看附近的人
    PHP框架中的日志系统
    PHP链式操作输出excel(csv)
    看看你的正则行不行——正则优化一般的json字符串
    PHP设计模式(三)
    PHP设计模式(二)
    PHP设计模式(一)
    PHP守护进程
    数据库的常用日志
    浅谈数据库事物
  • 原文地址:https://www.cnblogs.com/zddsblog/p/7483729.html
Copyright © 2011-2022 走看看