12_多路查找树

zoukankan html css js c++ java

12_多路查找树

二叉树的问题分析

二叉树是有问题的

二叉树需要加载到内存，假如二叉树的节点比较少，那么没有什么问题，假如二叉树的节点非常多（比如一亿），那么就会出现问题

1、在构建二叉树的时候，需要进行多次的I/O操作，节点海量，构建二叉树的时候，速度会有影响

2、节点海量，也就造成二叉树的高度非常高（2ⁿ-1），这样会降低操作速度

即使树的查找效率很高，也顶不住海量节点，更别说其他的增删改操作了

这样的情况在理论上是会发生的，发生这样的问题，根本原因在于二叉树它只有两个节点

为了解决这个问题，我们提出了多叉树。非常经典的多叉树：2-3树、2-3-4树、B树、....

多叉树有个好处，就是可以通过重新组织节点，减少树的高度，这样就能够对二叉树进行优化，比如下面的2-3树

2-3树

基本概述

2-3树其实就是一个比较简单的B树结构，它有如下特点：

1、2-3树的所有叶子节点都在同一层（只要是B树，都满足这个条件）

2、有两个子节点的节点叫做二节点，二节点要么没有子节点，要么有两个子节点

3、有三个子节点的节点叫做三节点，三节点要么没有子节点，要么有三个节点

4、2-3树是由二节点和三节点构成的树

2-3树原理解析

现在有一个数列：{16,24,12,32,14,26,34,10,8,28,38,20}，我们要将这个数列构建为2-3树

在讲解2-3树之前，要明确一个事情：在多叉树中，一个节点中可能有多个值，这多个值共同构成了多叉树

节点插入规则：

1、2-3树的所有叶子节点都在同一层（只要是B树都满足这个条件）

2、有两个子节点的叫2节点，2节点要么有两个子节点，要么没有

3、有三个子节点的叫3节点，3节点要么有三个子节点，要么没有

4、按照规则插入一个数到某个节点时，不能满足上面的三个要求，那么就应该拆

首先向上拆，假如上层满了，那么拆本层，拆后仍然需要满足上面三个条件

5、对于三节点的子树的值大小仍然遵守BST（二叉排序树）的规则

也就是说，2-3树仍然是顺序的，仍然是保证BST的顺序的，那么分别来说一下二节点和三节点的BST的例子

二节点：

三节点：

二节点还比较好理解，但是三节点说一下

子节点的最左边小于父节点的最小值，子节点的中间节点的权在父节点的两个权值的中间，子节点右边大于父节点的最大值

2-3树构建过程

现在有一个数列：{16,24,12,32,14,26,34,10,8,28,38,20}，我们根据这个数列构建为一个2-3树

1、插入16节点

2、插入24节点

假如没有下一层，那么优先插入当前层，比较之后发现当前层还是双节点，所以直接插入变为三节点

3、插入12节点

没有下一层则有限插入当前层，比较之后发现当前层已经为三节点

考虑向上拆分，发现没有上一层

向下插入，但是向下插入，首先插入到16的左子节点

插入之后发现不符合规则：所有的叶子节点全都都要在同一层，所以要做拆分，我们将上一层根据BST规则进行拆分，得到如下结果

最后形成结果

4、插入32

假如没有下一层，那么优先考虑插入本层，所以应该插入到24的右侧

5、插入14

与16比对发现小于16，那么假如没有下一层则插入到本层，但是发现存在下一层，那么进入下一层

再次比对，优先插入本层，发现可以插入到12，则插入到12右边

6、插入26

发现有下一层，进入下一层

与各个节点比对，发现可以插入到24右侧，但是发现24所在的节点已经是三节点了

优先向上拆分，发现上层未满，则根据BST规则进行拆分，也就是将26拆分上去了

发现不满足2-3树的三节点规则：三节点要么没有，要么全有，所以将其进行拆分

7、插入34

发现有下一层节点，进入下一层节点

优先插入本层

8、插入10

发现有下一层节点，那么进入下一层

比对后发现，可以插入到12左侧，但是12所在的节点已经为三节点

优先考虑向上拆分，但是上层节点已经为三节点了

必须向下进行插入，经过BST平衡后得到

发现不满足B树的规则：所有的叶子节点全部都在一层，所以根据BST规则拆分上一层的上一层，得到

发现树平衡了，其实就是将26拆分出来，将24所在的节点位26的左子节点，32所在的节点为26的右子节点

9、插入8

进入到最后一层，插入

10、插入28

进入到最后一层，进行插入，发现32所在的节点已经为三节点

优先考虑向上拆分，发现可以拆分，则拆分，最终结果为

11、插入38

12、插入20

2-3-4树

这个也和2-3树差不多，也是一种B树，只不过它多出来了四节点，这个就不多BB了

B树和B加树和B*树

B树

B树

我们看这个黄色的P，其实就是代表节点

B树，Balanced，平衡树。

有人写作B-tree，其实就是B树，但是有人翻译为B-树，这是很让人产生误解的，会让人一位B-树是一种树，而B树是另外一种树，其实他俩都是一个

前面我们已经讲解了2-3树，其实这就是一种B树，我们在讲解MySQL的时候，经常说过某种索引是基于B树，或者B+树的

B树有一些说明：

1、B树的阶：节点的最多子节点的个数

比如2-3树的阶就是3，2-3-4树的阶是4

2、B-树的搜索：从根节点开始，对节点内的关键字序列进行二分查找，假如查到则结束，假如查不到进入到关键字所在范围的儿子节点重新进行二分查找，重复。直到找到节点或者最终的指向为null结束

每一个节点可能会存放一个集合，比如2-3树可能在一个节点里存放1或者2个数据，2-3-4树还可能存放3个数据，甚至其他的B树一个节点里面可能存放更多的数据

在这种情况下，一个节点里面的数据量就需要查找，查找完成之后假如发现数据存在这个节点，那么直接退出就好

假如没有查询到数据，那么就进行判断，数据大于/小于其中的某个范围，比如我们在2-3树的时候，回想一下三节点

三节点的中间节点是小于节点中左边的数据，但是大于右边的数据，类似这种情况就可以进行向下进行查询

3、关键字集合分布在整棵树中

也就是说你要寻找的数据可能存在叶子节点，也可能存在非叶子节点

所以搜索可能在非叶子节点就结束了

4、搜索性能等价于在关键字全集内做一次二分查找

B+树

B+树是B树的变体，也是一种多路查找树，但是和B树有所不同

1、所有的关键字都出现在叶子节点中的链表

也就是说，非叶子节点不在存放数据了，数据只能在叶子节点出现，比如5，根节点的5代表是索引，而不是数据

2、链表中的关键字也是有序的

比如我们看第一个5、8、9，这个链表就是有序的

然后里面的Q是指向下一个叶子节点，下一个叶子节点是10、15、18，.....

3、我们的非叶子节点其实就相当于叶子节点的索引，这个索引叫做稀疏索引

就是说，我们要寻找一个数据最终是要寻找叶子节点，因为非叶子节点不存放数据，但是非叶子节点是有用的

它的用处就是便于我们去寻找叶子节点，那么这些非叶子节点就是叫做稀疏索引

4、我们所有的叶子节点才是存储数据的索引，这个也叫稠密索引，也可以叫做聚合索引

所有的关键字都出现在叶子节点的链表里面，也就是上图中，我们这一圈带Q的链表

数据只能存在叶子节点这种形式叫做稠密索引，我们也称为聚合索引

在这种情况下，叶子节点之间都使用指针相连接（我们看到的Q就是指向下一个链表的指针），那么在这种情况下更加适合范围查找

5、更加适合文件索引系统

6、B树和B+树各有自己的应用场景，不能说B+树一定比B树好

其实B+树简直是一个天才设计，简单来讲，它可以将一个链表分割成几段来进行查找，还是以上面的图为例子，只不过这次我们使用链表来进行显示：

我们再看B+树

假如我们想要找到10这个数据，在链表中，我们只能从头开始找，但是在B+树中，我们只需要先找到分割的段，然后就直接找到了数据

所以现在可以理解，为啥B+树的搜索效率如此之高，因为它是将原来的单链表直接分割成了几段链表，这样查询效率就大大提升了

那么它的思想是什么呢？假如我现在的数据是5到99，我现在想要将这些数据进行分段，比如分成三段

那么我就说5->27是一段，28->64是一段，65->99是一段，那么根据这个就分为了三个部分

我仍然不满意，我说，要将这三段再平均分，那就是一段分三段，共九段

到这里我说差不多了，现在一个链表的长度就不用很长了，那么在查找的时候也十分方便（链表就不画了）

那么我们说，原理图画完了，那么具体落地的程序应该怎么去设计呢？

其实十分简单，我们不需要知道每一段的结束点在哪里，我们只需要知道每一段的开始点在哪里，因为我们是链表，我们肯定是需要从开始点开始遍历的，区别就是开始点在哪里，这也就是我们为什么没有标注结束点的原因

如果还不懂那么看一眼新华词典，我们想要查询某一个词，在目录上肯定会告诉你这个词在哪个页面上，比如第196页，这不就相当于直接砍掉了我们之前的195页么

但是在第196页，我们还是需要一个一个去寻找，就相当于我们的链表一样。假如没有B+树这个目录，我们假如只有链表，就需要从第一页找到第196页

B+树也不是没有缺点的，它的索引维护起来十分困难，光看这个图你就应该了解了所以B+树一般用于放在那些不经常进行变动的数据上，它的查找是十分快的，但是假如我们说要放到一个经常变动的数据项上面，一个索引的维护就足够把性能降低了

B*树

B星树是B+树的变体，在B+树的非根和非叶子节点再次增加一个指向兄弟的指针

1、B*树定义了非叶子节点关键字个数至少为(2/3)xM，也就是说块的最低使用率为2/3，而B+树的块的最低使用率为B+树的1/2

2、从第一个特点我们可以知道，B*树分配新节点的概率比B+树低，空间使用率更高

© 本作品原创嚎羸

查看全文

相关阅读:
【leetcode】11. 盛最多水的容器
 【leetcode】8. 字符串转换整数 (atoi)
【leetcode】6. Z 字形变换
 【leetcode】5. 最长回文子串
 【leetcode】LCP 19. 秋叶收藏集
 删除第一个节点问题
 问一个大学学习计算机这门专业的问题
 Struts文件上传页面上传后显示“连接已重置”
2013-12-6 思杨没吃饱饿醒了
 2013-12-7 snoopy乐园中的思杨

原文地址：https://www.cnblogs.com/howling/p/14331088.html

12_多路查找树

二叉树的问题分析

2-3树

基本概述

2-3树原理解析

2-3树构建过程

2-3-4树

B树和B加树和B*树

B树

B+树

B*树