从一道索引数据结构面试题看B树、B+树

zoukankan html css js c++ java

从一道索引数据结构面试题看B树、B+树

题目1： Mysql数据库用过吧？l里面的索引是基于什么数据结构。

答：主要是基于Hash表和B+树

题目2：很好请你说一下B+树的实现细节是什么样的？B-树和B+树有什么区别？联合索引在B+树中如何存储？

答: 首先，数据库使用树型结构来增加查询效率，并保持有序。那么，为什么不使用二叉树来实现数据结构呢，二叉树算法时间复杂度是lg(N)，查询速度和比较次数都是较小的。

实际上，查询索引操作最耗资源的不在内存中，而是磁盘IO。索引是存在磁盘上的，当数据量比较大的时候，索引的大小可能达到几个G。那么，我们利用索引进行查询的时候，不可能把索引直接加载到内存中，只能一次读取一个磁盘页，一个磁盘页对应着一个节点，一次读取操作时一个磁盘io。

在二叉树查询时，最坏的情况下查找的次数是树的高度，即io次数为树的高度。B-树就是比二叉树“矮胖”的树。

二叉树的特征如下：

1. 根节点至少有两个子女

2. 每个中间节点包含k-1个元素和k个孩子，其中 m/2 <= k <= m

3. 每个叶子节点包含k-1个元素，其中 m/2 <= k <= m

4. 所有叶子节点位于同一层

5. 节点中的元素从小到大排列，正好是孩子节点的值域。（就是孩子节点的元素都比父节点中元素的最小值大，比父节点元素的最大值小）

B-树查询的次数并不比二叉树的次数小，但是相比起磁盘io速度，内存中比较的耗时就不足为提了。所以只要树的高度足够低，io次数少，就可以提升查找性能。而每个节点中有多个元素，都只在内存中操作。

而B+树是基于B-树的，增加了如下规则：

1. 有k个子树的中间节点包含有k个元素（B树中是k-1个元素），每个元素不保存数据，只用来索引，所有数据都保存在叶子节点。

2. 所有的叶子结点中包含了全部元素的信息，及指向含这些元素记录的指针，且叶子结点本身依关键字的大小自小而大顺序链接。

3. 所有的中间节点元素都同时存在于子节点，在子节点元素中是最大（或最小）元素。

所以，B+树对比B-树有如下好处：

io次数少：b+树中间节点只存索引，不存在实际的数据，所以可以存储更多的数据。索引树更加的矮胖，io次数更少。
性能稳定：b+树数据只存在于叶子节点，查询性能稳定
范围查询简单：b+树不需要中序遍历，遍历链表即可。

查看全文

相关阅读:
Mongodb中Sharding集群
 Codis --豌豆荚开源的Redis分布式中间件
 Linux下查看文件和文件夹大小
 kafka中处理超大消息的一些考虑
 heroku
MVCC图示
 oracle ORA_ROWSCN 行记录的更新时间
 6个理由告诉你为什么要用NAS
RAID技术介绍和总结
 新一代分布式任务调度框架：当当elastic-job开源项目的10项特性

原文地址：https://www.cnblogs.com/gengsc/p/7230514.html