一:定义
B树(B-树)是一种平衡的多路查找树。2-3树和2-3-4树都是B树的特例。节点最大的孩子数组称为B树的阶(order),因此,2-3树是3阶B树,2-3-4树是4阶B树。
二:属性
一棵最小度为t的B树是满足如下四个条件的平衡多叉树:
1.每个节点最多包含2t−1个关键字;除根节点外的每个节点至少有t−1个关键字(t≤2),根节点至少有一个关键字;
2.一个节点u中的关键字按非降序排列:u.key1≤u.key2≤…u.keynu.key1≤u.key2≤…u.keyn;
3.每个节点的关键字对其子树的范围分割。设节点uu有n+1个指针,指向其n+1棵子树,指针为u.p1,…u.pn,关键字ki为u.pi所指的子树中的关键字,有k1≤u.key1≤k2≤u.key2…k1≤u.key1≤k2≤u.key2…成立;
4.所有叶子节点处于同一层次。这表明B树是平衡的。平衡性其实正是B树名字的来源,B表示的正是单词Balanced;
比如说要查找7,首先从外存读取得到根节点3,5,8三个元素,发现7不在,但是5、8之间,因此就通过A2再读取外存的6,7节点找到结束。
B树的插入和删除和2-3树、2-3-4树类似。
三:用途
B树的数据结构为内外存的数据交互准备的
当要处理的数据很大时,无法一次全部装入内存。
这时对B树调整,使得B树的阶数与硬盘存储的页面大小相匹配。
比如说一棵B树的阶为1001(即1个节点包含1000个关键字),高度为2(从0开始),它可以存储超过10亿个关键字(1001x1001x1000+1001x1000+1000),
只要让根节点持久的保留在内存中,那么在这颗树上,寻找某一个关键字至多需要两次硬盘的读取即可。
四:性能
对于n个关键字的m阶B树,最坏情况查找次数计算
第一层至少1个节点,第二层至少2个节点,由于除根节点外每个分支节点至少有⌈m/2⌉棵子树,则第三层至少有2x⌈m/2⌉个节点...
这样第k+1层至少有2x(⌈m/2⌉)^(k-1),实际上,k+1层的节点就是叶子节点。
若m阶B树有n个关键字,那么当你找到叶子节点,其实也就等于查找不成功的节点为n+1,
因此n+1>=2x(⌈m/2⌉)^(k-1),即
在含有n个关键字的B树上查找时,从根节点到关键字节点的路径上涉及的节点数不超多