B-树 B+树
-
B-树
- 概念:一个节点可以拥有多于2个子节点的二叉查找树
- 即B树,横线不是减号
- 主要用于文件系统和部分数据库索引,如MongoDB
- 一个m阶的B树具有如下几个特征:
- 根结点至少有两个子女。
- 每个中间节点都包含k-1个元素和k个孩子,其中 m/2 <= k <= m
- 每一个叶子节点都包含k-1个元素,其中 m/2 <= k <= m
- 所有的叶子结点都位于同一层。
- 每个节点中的元素从小到大排列,节点当中k-1个元素正好是k个孩子包含的元素的值域分划。
-
B+树
- 是B-树的变体,比B-查询性能更高
- 一个m阶的B+树具有如下几个特征:
- 有k个子树的中间节点包含有k个元素(B树中是k-1个元素),每个元素不保存数据,只用来索引,所有数据都保存在叶子节点。
- 所有的叶子结点中包含了全部元素的信息,及指向含这些元素记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接。
- 所有的中间节点元素都同时存在于子节点,在子节点元素中是最大(或最小)元素。
-
区别
- B+树中间节点没有卫星数据,所以同样大小的磁盘页可以存储更多节点元素,即相同数据量时,B+树比B-树更“矮胖”,所以IO更少。
- B+树必须查到叶子节点,而B-树也许查到中间节点就找到了,所以B-并不稳定(最好和最坏情况)
- 范围查询时的不同。B-树只能靠中序遍历,B+树可以依靠叶子节点的链表做遍历。
- B+的优势:
- 单一节点存储更多的元素,使得查询的IO次数更少。
- 所有查询都要查找到叶子节点,查询性能稳定。
- 所有叶子节点形成有序链表,便于范围查询。
为什么是树
- 查询效率高
- 可以保持有序
- 索引很大时,无法把索引加载到内存中
- 基于磁盘IO慢的考量,降低IO次数
相关名词
- 卫星数据(Satellite Information)
- 索引元素指向的数据记录,B-树中,中间节点和叶子节点都带有卫星数据;B+树中,只有叶子节点带有卫星数据,中间节点仅仅是索引
- 在数据库的聚集索引(Clustered Index)中,叶子节点直接包含卫星数据。在非聚集索引(NonClustered Index)中,叶子节点带有指向卫星数据的指针。