zoukankan      html  css  js  c++  java
  • ZBox字符串匹配算法

    Zbox 的意思:一个字符串 S ,它的子串 S[i..n], 用 Z[i] 表示 S[i..n] 与 S 精确匹配的最长前缀的长度。如:abcdabce , Z[5] = 3。

    如图 1:
           1 2 3 4 5 6 7 8
           a b c d a b c e
           |___|   |___|
                      zbox
     那么如何把 S 中所有的 Z[i] 找出来呢?并且让它的时间是线性的。
     如图 2:
           |____|___|_____________|____|___|______|
           1    22  31           100  121  130    n
                k'                     |_g_|
                                         k    
     
        Z[100] = 31,求 Z[121] = ?
     可以看出,因为 Z[100] = 31, 所以 S[100..130] 与 S[1..31] 是相同的,显然 S[22..31] 与 S[121..130] 也是相同的。那么,是不是可以通过 Z[22] 来求 Z[121] 呢?
     答案是,当 Z[22] < 10 的时候,Z[22] = Z[121]; 而当 Z[22] >= 10的时候,Z[22] <= Z[121], Z[121]真正的值,还需要通过比较 S[131..n] 这些后面的字符才能算出。
     由上面的例子得出 Zbox 算法:
     设 k 为 S 的任意一个位置,循环从 k=2 到 k=n-1。
     设 r 是 当前 Zbox 覆盖的最靠右的位置,l 是 当前 r 所属的 Zbox的左起点。
     1. 若 k > r, 则 k 未落在当前覆盖最远的 Zbox 中,所以不能用现成的 Z[i] 值,只好老老实实地比较 S[1..n] 和 S[k..n],直到不能匹配的位置 q ,则 Z[k] = q-k ,l = k,r = q-1。
     2. 若 k <= r, 则 k 落在了当前覆盖最远的 Zbox 中, 所以可以利用上之前已经计算好的 Z[i] 值。但是还要分两种情况。设 g=r-k+1。如图2。
        a. 如果 Z[k'] < g ,则 Z[k]=Z[k'];
        b. 如果 Z[k'] >= g,则需要从第 r+1 个字符开始检验,直到不能匹配的字符q,则 Z[k] = q-k ,l = k ,r = q-1 。 
     
    利用上述 Zbox 算法,就可以在文本 T 中发现所有与 p 精确匹配的子串了。
     1 int ZBoxMatch(byte* pSrc, int nSrcSize, byte* pSubSrc, int nSubSrcSize)
     2 {
     3     int* pZBox = new int[nSrcSize];
     4     pZBox[0] = 1;
     5     int left = 0, right = 0;
     6     for( int i = 0; i < nSrcSize; i++)
     7     {
     8         if(i > right)
     9         { 
    10             //ZBox之外,更新ZBox的区间 
    11             int j = 0;
    12             while(j + i < nSrcSize && pSubSrc[j] == pSrc[i+j])
    13             {
    14                 j++;
    15             }
    16             left = i;
    17             right = i + j - 1;
    18             pZBox[i] = j;
    19         }
    20         else 
    21         {
    22             //ZBox之内 
    23             int p = i - left;
    24             if(pZBox[p] < right - i + 1)
    25             {
    26                 //p的最长公共前缀匹配不超过right与i的宽度 
    27                 pZBox[i] = pZBox[p];
    28             }
    29             else 
    30             {
    31                 //否则接着right 向后继续计算匹配的位置 
    32                 int j = right + 1;
    33                 while(j < nSrcSize && pSubSrc[j] == pSrc[j - i])
    34                 {
    35                     j++;
    36                 }
    37                 left = i;
    38                 right = j - 1;
    39                 pZBox[i] = j - i;
    40             }
    41         }
    42     }
    43     int nPos = -1;
    44     for( int i = 0; i < nSrcSize; i++)
    45     {
    46         if (pZBox[i] == nSubSrcSize)
    47         {
    48             nPos = i;
    49             break;
    50         }
    51     }
    52     delete[] pZBox;
    53     return nPos;
    54 } 
    时间复杂度分析: 因为 T 和 P 的字符至多被比较了一次,所以时间复杂度是 O(m+n),|P| = m,|O| = n。
    空间复杂度分析: O(m)。
  • 相关阅读:
    Codeforces Round #307 (Div. 2)E. GukiZ and GukiZiana
    bzoj2957: 楼房重建,分块
    分块入门。
    poj3690 Constellations
    Codeforces Round #451 (Div. 2)F. Restoring the Expression 字符串hash
    Codeforces Round #456 (Div. 2)D. Fishes
    Codeforces Round #450 (Div. 2)D. Unusual Sequences
    快速排序+分治法
    哈夫曼编码课程设计+最小优先对列建树。
    浅谈差分约束系统
  • 原文地址:https://www.cnblogs.com/dsky/p/2482984.html
Copyright © 2011-2022 走看看