算法导论读书笔记（19）

最优二叉搜索树

最优二叉搜索树 （optimal binary search tree）问题的形式化定义如下：给定一个由 n 个互异的关键字组成的序列 K = < k₁ , k₂ , … , k_n >，且关键字有序（有 k₁ < k₂ < … < k_n ），我们要从这些关键字中构造一棵二叉查找树。对每个关键字 k_i ，一次搜索为 k_i 的概率是 p_i 。某些搜索的值可能不在 K 内，因此还有 n + 1 个“虚拟键” d₀ , d₁ , … , d_n 代表不在 K 内的值。其中， d₀ 代表所有小于 k₁ 的值， d_n 代表所有大于 k_n 的值，而对于 i = 1, 2, …, n - 1 ，虚拟键 d_i 代表所有位于 k_i 和 k_i₊₁ 之间的值。对每个虚拟键 d_i ，一次搜索对应于 d_i 的概率是 q_i 。下图是 n = 5个关键字的集合上的两棵二叉查找树。

其中各结点的概率如下表所示：

每个关键字 k_i 是一个内部结点，每个虚拟键 d_i 是一个叶子。每次搜索要么成功（找到某个关键字 k_i ），要么失败（找到某个虚拟键 d_i ），因此有如下公式：

因为已知了每个关键字和每个虚拟键被搜索的概率，因而可以确定在一棵给定的二叉查找树 T 内一次搜索的期望代价。假设一次搜索的实际代价为检查的结点个数，即在 T 内搜索所发现的结点的深度加1.所有在 T 内一次搜索的期望代价为

其中 depth_T 代表树 T 内一个结点的深度。

对给定的一组概率，我们的目标是构造一个期望搜索代价最小的二叉查找树。把这种树称为最优二叉查找树。下面将使用动态规划方法来解决这个问题。

步骤1：一棵最优二叉查找树的结构

为描述一棵最优二叉查找树的最优子结构，首先要看它的子树。一棵二叉查找树的任意一棵子树必定包含在连续范围内的关键字 k_i ，…， k_j ，有 1 <= i <= j <= n 。另外，一棵含有关键字 k_i ，…， k_j 的子树必定也含有虚拟键 d_i_-1 ，…， d_j 作为叶子。

现在我们可以描述最优子结构：如果一棵最优二叉查找树 T 有一棵包含关键字 k_i ，…， k_j 的子树 T’ ，那么这棵子树 T‘ 对于关键字 k_i ，…， k_j 和虚拟键 d_i_-1 ，…， d_j 的子问题也必定是最优的。

使用最优子结构来说明可以根据子问题的最优解，来构造原问题的一个最优解。给定关键字 k_i ，…， k_j ，假设 k_r （ i <= r <= j ），将是包含这些键的一棵最优子树的根。根 k_r 的左子树包含关键字 k_i ，…， k_r_-1 （和虚拟键 d_i_-1 ，…， d_r_-1 ），右子树包含关键字 k_r₊₁ ，…， k_j （和虚拟键 d_r ，…， d_j ）。我们只要检查所有的候选根 k_r ，并且确定所有包含关键字 k_i ，…， k_r_-1 和 k_r₊₁ ，…， k_j 的最优二叉查找树，就可以保证找到一棵最优的二叉查找树。

步骤2：一个递归解

现在可以递归地定义一个最优解的值了。选取子问题域为找一个包含关键字 k_i ，…， k_j 的最优二叉查找树，其中 i >= 1 ， j <= n 且 j >= i - 1。（当 j >= i - 1时没有真是的关键字，只有虚拟键 d_i_-1 ）。定义 e [ i , j ]为搜索一棵包含关键字 k_i ，…， k_j 的最优二叉查找树的期望代价。最终，我们要计算的是 e [ 1 , n ]。

当 j = i - 1时出现简单情况。此时只有虚拟键 d_i_-1 。期望的搜索代价为 e [ i , i - 1 ] = q_i - 1。

当 j >= i 时，需要从 k_i ，…， k_j 中选择一个根 k_r ，然后用关键字 k_i ，…， k_r_-1 来构造一棵最优二叉查找树作为其左子树，并用关键字 k_r₊₁ ，…， k_j 来构造一棵最优二叉查找树作为其右子树。当一棵树成为一个结点的子树时，子树中每个结点的深度增加1。这个子树的期望搜索代价增加为子树中所有概率的总和。对一棵有关键字 k_i ，…， k_j 的子树，定义概率的总和为

因此，如果 k_r 是一棵包含关键字 k_i ，…， k_j 的最优子树的根，则有

e [ i , j ] = p_r + ( e [ i , r - 1 ] + w ( i , r - 1 )) + ( e [ r + 1 ， j ] + w ( r + 1 , j ))

注意

w ( i , j ) = w ( i , r - 1 ) + p_r + w ( r + 1 , j )

可以将 e [ i , j ]重写为

e [ i , j ] = e [ i , r - 1 ] + e [ r + 1 , j ] + w ( i , j )

假设我们知道该采用哪一个结点 k_r 作为根。我们选择有最低期望搜索代价的结点作为根，从而得到最终的递归式：

步骤3：计算一棵最优二叉查找树的期望搜索代价

下面的伪码以概率 p₁ ，…， p_n 和 q₁ ，…， q_n 以及规模为 n 为输入，返回表 e 和 root 。

OPTIMAL-BST(p, q, n)
1  let e[1 .. n + 1, 0 .. n], w[1 .. n + 1, 0 .. n] and root[1 .. n, 1 .. n] be new tables
2  for i = 1 to n + 1
3      e[i, i - 1] = q_i - 1
4      w[i, i - 1] = q_i - 1
5  for l = 1 to n
6      for i = 1 to n - l + 1
7          j = i + l - 1
8          e[i, j] = ∞
9          w[i, j] = w[i, j - 1] + p_j + q_j
10         for r = i to j
11             t = e[i, r - 1] + e[r + 1, j] + w[i, j]
12             if t < e[i, j]
13                 e[i, j] = t
14                 root[i, j] = r
15 return e and root

此过程的操作比较直观。第1～4行初始化 e [ i , j - 1 ]和 w [ i , j - 1 ]的值。第5～14行的 for 循环利用上面两个递归式来计算 e [ i , j ]和 w [ i , j ]，在第10～14行，尝试每个下标 r 以确定使用哪个关键字 k_r 来作为包含关键字 k_i ，…， k_j 的最优二叉查找树的根。无论何时发现一个更好的关键字来作为根，这个 for 循环在 root [ i , j ]中保存下标 r 的当前值。

下图是根据上面二叉查找树的关键字分布，程序 OPTIMAL-BST 计算出的表 e [ i , j ]和 w [ i , j ]和 root [ i , j ]。

OPTIMAL-BST 过程需要 Θ ( n³ )。

算法导论读书笔记（19）

算法导论读书笔记（19）

目录

最优二叉搜索树

步骤1：一棵最优二叉查找树的结构

步骤2：一个递归解

步骤3：计算一棵最优二叉查找树的期望搜索代价