zoukankan      html  css  js  c++  java
  • mysql 9 hash索引和B+tree索引的区别

          不同的引擎对于索引有不同的支持:Innodb和MyISAM默认的索引是Btree索引;而Mermory默认的索引是Hash索引。

    我们在mysql中常用两种索引算法BTree和Hash,两种算法检索方式不一样,对查询的作用也不一样。 

    区别:

    哈希索引适合等值查询,但是无法进行范围查询 
    
    哈希索引没办法利用索引完成排序 
    
    哈希索引不支持多列联合索引的最左匹配规则 
    
    如果有大量重复键值的情况下,哈希索引的效率会很低,因为存在哈希碰撞问题

    详解

    一、BTree
        BTree索引是最常用的mysql数据库索引算法,因为它不仅可以被用在=,>,>=,<,<=和between这些比较操作符上,而且还可以用于like操作符,

    只要它的查询条件是一个不以通配符开头的常量,例如:
    select * from user where name like ‘jack%’;
    select * from user where name like ‘jac%k%’;
    如果一通配符开头,或者没有使用常量,则不会使用索引,例如:
    select * from user where name like ‘%jack’;
    select * from user where name like simply_name;

    二、Hash
        Hash索引只能用于对等比较,例如=,<=>(相当于=  会严格比较两个NULL值是否相等,NULL<=>NULL = 1)操作符。由于是一次定位数据,不像BTree索引需要从根节点到枝节点,最后才能访问到页节点这样多次IO访问,所以检索效率远高于BTree索引。
    但为什么我们使用BTree比使用Hash多呢?主要Hash本身由于其特殊性,也带来了很多限制和弊端:

    1 Hash索引仅仅能满足“=”,“IN”,“<=>”查询,不能使用范围查询。
    2 联合索引中,Hash索引不能利用部分索引键查询。
    3 对于联合索引中的多个列,Hash是要么全部使用,要么全部不使用,并不支持BTree支持的联合索引的最优前缀,也就是联合索引的前面一个或几个索引键进行查询时,Hash索引无法被利用。
    4 Hash索引无法避免数据的排序操作
    5 Hash索引是将索引键通过Hash运算之后,将Hash运算结果的Hash值和所对应的行指针信息存放于一个Hash表中,由于不同索引键存在相同Hash值,所以即使满足某个Hash键值的数据的记录条数,
    也无法从Hash索引中直接完成查询,还是要通过访问表中的实际数据进行比较,并得到相应的结果。 Hash索引遇到大量Hash值相等(hash碰撞)的情况后性能并不一定会比BTree高 6 对于选择性比较低的索引键,如果创建Hash索引,那么将会存在大量记录指针信息存于同一个Hash值相关联。这样要定位某一条记录时就会非常麻烦,会浪费多次表数据访问,而造成整体性能底下。

    1. hash索引查找数据基本上能一次定位数据,当然有大量hash碰撞的话性能也会下降。而btree索引就得在节点上挨着查找了,很明显在数据精确查找方面hash索引的效率是要高于btree的;

    2. 那么不精确查找呢,也很明显,因为hash算法是基于等值计算的,所以对于“like”等范围查找hash索引无效,不支持;所以这时候就只能全表扫描去查了

    3. 对于btree支持的联合索引的最优前缀,hash也是无法支持的,联合索引中的字段要么全用要么全不用。

    最左前缀匹配?

          在创建多列索引时,我们根据业务需求,where子句中使用最频繁的一列放在最左边,因为MySQL索引查询会遵循最左前缀匹配的原则,即最左优先,在检索数据时从联合索引的最左边开始匹配。所以当我们创建一个联合索引的时候,如(key1,key2,key3),相当于创建了(key1)、(key1,key2)和(key1,key2,key3)三个索引,这就是最左匹配原则

    一张表格说明白差异

    索引名 hash Btree
    支持最左前缀匹配原则? 不支持,只有索引的全部字段都用上才会匹配到 支持,用上索引的第一个字段就可以匹配索引
    MyISAM和InnoDB是否支持? 不支持(只有Memory和NDB引擎索引支持) 支持
    范围查询能否命中索引? 不可以,只有“=”,“IN”,“<=>”(等价于的意思)查询能命中 可以,支持between , >  ,<  ,>= , <= ,  like 等
    数据结构

    hash表,通过键去找值的一种数据结构,hash碰撞的数据放到链表里

     B-tree,多路搜索树,并不是二叉的

    三  其实有很多优秀的数据结构可以优化查询

    为什么哈希表、完全平衡二叉树、B树、B+树都可以优化查询,为何Mysql独独喜欢B+树?

    hash表上面已经讲过了

    有序数组,它就比较优秀了呀,它在等值查询的和范围查询的时候都很Nice

    不是的,有序的适合静态数据,因为如果我们新增、删除、修改数据的时候就会改变他的结构。

    比如你新增一个,那在你新增的位置后面所有的节点都会后移,成本很高。

    此言差矣,可以用来做静态存储引擎啊,用来保存静态数据,例如你2019年的支付宝账单,2019年的淘宝购物记录等等都是很合适的,都是不会变动的历史数据。

    二叉树

    二叉树是有序的,所以是支持范围查询的。

    但是他的时间复杂度是O(log(N)),为了维持这个时间复杂度,更新的时间复杂度也得是O(log(N)),那就得保持这棵树是完全平衡二叉树了。

    怎么听你一说,平衡二叉树用来做索引还不错呢?

    此言差矣,索引也不只是在内存里面存储的,还是要落盘持久化的,可以看到图中才这么一点数据,如果数据多了,树高会很高

    查询的成本就会随着树高的增加而增加。

    B树呢

    可以发现同样的元素,B树的表示要比完全平衡二叉树要“矮”,原因在于B树中的一个节点可以存储多个元素

    B树其实就已经是一个不错的数据结构,用来做索引效果还是不错的。

    那为啥没用B树,而用了B+树?

    我们可以发现同样的元素,B+树的表示要比B树要“胖”,原因在于B+树中的非叶子节点会冗余一份在叶子节点中,并且叶子节点之间用指针相连,

    同时非叶子节点不存储数据,

    那么B+树到底有什么优势呢?

        其实很简单,我们看一下上面的数据结构,最开始的Hash不支持范围查询,二叉树树高很高,只有B树跟B+有的一比。

    B树一个节点可以存储多个元素,相对于完全平衡二叉树整体的树高降低了,磁盘IO效率提高了。

    而B+树是B树的升级版,只是把非叶子节点冗余一下,这么做的好处是为了提高范围查找的效率

    提高了的原因也无非是会有指针指向下一个节点的叶子节点。

    小结到这里可以总结出来,Mysql选用B+树这种数据结构作为索引,可以提高查询索引时的磁盘IO效率,并且可以提高范围查询的效率,

    并且B+树里的元素也是有序的。

    四   B+树的一个节点,最多存储多少数据?

  • 相关阅读:
    linux内核中GNU C和标准C的区别
    linux内核中GNU C和标准C的区别
    Getting start with dbus in systemd (02)
    Getting start with dbus in systemd (01)
    Getting start with dbus in systemd (03)
    物理内存相关的三个数据结构
    数据类型对应字节数(32位,64位 int 占字节数)
    Linux kernel 内存
    共模电感的原理以及使用情况
    [原创]DC-DC输出端加电压会烧毁
  • 原文地址:https://www.cnblogs.com/hup666/p/13388570.html
Copyright © 2011-2022 走看看