zoukankan      html  css  js  c++  java
  • 后缀数组详解

    什么是后缀数组

    后缀数组是处理字符串的有力工具 —罗穗骞

    附上论文链接:https://wenku.baidu.com/view/ed1be61e10a6f524ccbf85fd?pcf=2

    推荐博客:https://www.cnblogs.com/zwfymqz/p/8413523.html

                   https://www.cnblogs.com/thmyl/p/6296648.html

    个人理解:后缀数组是让人蒙逼的有力工具!

    就像上面那位大神所说的,后缀数组可以解决很多关于字符串的问题,

    注意:后缀数组并不是一种算法,而是一种思想。

    实现它的方法主要有两种:倍增法O(nlogn)O(nlogn) 和 DC3法O(n)O(n)

    其中倍增法除了仅仅在时间复杂度上不占优势之外,其他的方面例如编程难度,空间复杂度,常数等都秒杀DC3法

    我的建议:深入理解倍增法,并能熟练运用(起码8分钟内写出来&&没有错误)。DC3法只做了解,吸取其中的精髓;

    但是由于本人太辣鸡啦,所以本文只讨论倍增法

    SA[] 第几名是谁

    后缀数组:后缀数组 SA 是一个一维数组, 它保存 1..n 的某个排列 SA[1] ,SA[2],……,SA[n],并且保证 Suffix(SA[i]) < Suffix(SA[i+1]),1≤i<n 。也就是将 S 的 n 个后缀从小到大进行排序之后把排好序的后缀的开头位置顺次放入 SA 中。

    Rank[] 谁是第几名名次数组:名次数组 Rank[i]保存的是 Suffix(i)在所有后缀中从小到大排列的“名次 ” 。

    r[]:原始数据j当前字符串的长度,每次循环根据2个j长度的字符串的排名求得2j长度字符串的排名.

    y[]:指示长度为2j的字符串的第二关键字的排序结果,通过存储2j长字符串的第一关键字的下标进行指示.

    wv[]:2j长字符串的第一关键字的排名序号.

    c[]:计数数组,计数排序用到.

    x[]:一开始是原始数据r的拷贝(其实也表示长度为1的字符串的排名),之后表示2j长度字符串的排名.

    p:不同排名的个数.

     

    片段

    1.对长度为1的字符串进行排序(函数的第一步)

    for(i=0;i<m;i++) ws[i]=0;
    for(i=0;i<n;i++) ws[x[i]=r[i]]++;
    for(i=1;i<m;i++) ws[i]+=ws[i-1];
    for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;

    ①用的是基数排序,也可以使用其它的排序

    ②r[]存储原本输入的字符串,x[]是对r[]的ASCII呈现(便于排序)

    ③m是一个估计数字,代表ASCII最大值,在循环中做边界

    ④n在这里是字符串的长度+1,后面的加加减减有所体现(貌似不介意直接用字符串的长度)

    ⑤最后一行比较难懂,但实践证明它确实是正确的,sa[i]=j表示第i名是j。

    ws[i]是对第i及之前字符出现次数的累加,越往后ws[i]越大,而且对应的字符数值越大,举个例子,如果某一字符串为aaabaa,则a出现的次数为5,b出现的次数为1,按上述原理,可以看做ws[a]=5,ws[b]=6,固然a都在前5名,b在第六名。

    2.进行若干次基数排序

    因为前面排序的名次可能有重复,所以要再进行若干次,直到所有的名次都不再相同

    复制代码
    for(j=1,p=1; p<n; j*=2,m=p)
    {
          for(p=0,i=n-j; i<n; i++) y[p++]=i;
          for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j;
          for(i=0; i<n; i++) wv[i]=x[y[i]];
          for(i=0; i<m; i++) Ws[i]=0;
          for(i=0; i<n; i++) Ws[wv[i]]++;
          for(i=1; i<m; i++) Ws[i]+=Ws[i-1];
          for(i=n-1; i>=0; i--) sa[--Ws[wv[i]]]=y[i];
          for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++)
               x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
    }
    复制代码

    相对于上面函数的第一步来说,这一坨代码更加复杂了

    ①从最外层循环可以看出,j是处于倍增状态的,代表正在比较的每一小段字符串的长度

    ②循环内的第一行,循环了j-1次,是对后面几个数的提前处理(其第二关键字都为0)如图

    即所有加0的数

    ③第二行,再翻上去看一眼sa的作用。首先要明白这一行抛弃了一些东西,

     

    由于是对第二关键字的排序,第一关键字先不看,所以有一条件if(sa[i]>=j)

    这条语句后面y[p++]=sa[i]-j,要减去j也是因为这个

    到这里,第二关键字的排序就完成了

    ④开始第一关键字的排序

    假设需要排序的数为92 71 10 80 63 90

    那么y[]=3 4 6 2 1 5 即对第二关键字排序后名次递增所对应的序号

          x[]=10 80 90 71 92 63 即对第二关键字排序的结果

    for(i=0; i<n; i++) wv[i]=x[y[i]];将x[]数组拷贝到wv[]中

    ⑤剩下的基数排序就与对长度为1的字符串进行排序一样了

    height数组

    个人感觉,上面说的一大堆,都是为heigh数组做铺垫的,height数组才是后缀数组的精髓、

    先说定义

    i号后缀:i开始的后缀

    lcp(x,y):字符串x与字符串y的最长公共前缀,在这里指x号后缀与与y号后缀的最长公共前缀

    height[i]lcp(sa[i],sa[i−1]),即排名为i的后缀与排名为i−1的后缀的最长公共前缀

    H[i]:height[rak[i],即i号后缀与它前一名的后缀的最长公共前缀

    性质:H[i]H[i1]1

    证明引自远航之曲大佬

    具体的证明可以参考这个博客:https://www.cnblogs.com/zwfymqz/p/8413523.html

    求height的代码:

     1 void GetHeight() {
     2     int j, k = 0;
     3     for(int i = 1; i <= N; i++) {
     4         if(k) k--;
     5         int j = sa[rak[i] - 1];
     6         while(s[i + k] == s[j + k]) k++;
     7         Height[rak[i]] = k;
     8         printf("%d
    ", k);
     9     }
    10 }

    求LCP的板子: 许多细节地方已经注释了

     1 #include <cmath>
     2 #include <cstdio>
     3 #include <cstring>
     4 #include <iostream>
     5 #include <algorithm>
     6 using namespace std;
     7 const int maxn = 1e5+5;
     8 
     9 char s[maxn];
    10 int sa[maxn],t[maxn],t2[maxn],c[maxn];
    11 int Rank[maxn], height[maxn], dp[maxn][20];
    12 
    13 void build_sa(int n,int m){
    14     int i,*x = t, *y = t2;  //引用指针只是为了后面好交换
    15     for(i = 0; i < m; i++) c[i] = 0;
    16     for(i = 0; i < n; i++) c[x[i] = s[i]]++;
    17     for(i = 1; i < m; i++) c[i] += c[i-1];
    18     for(i = n-1; i >= 0; i--) sa[--c[x[i]]] = i;  //sa[i]中表示排名第i的位置是多少,先--操作是因为我们最后添加了个0
    19     for(int k = 1; k <= n; k <<= 1){ //k表示每次基数排序需要比较的长度,因为是按照倍增算法所以每次比较2个关键字
    20         int p = 0;
    21         //直接利用sa数组排序第二关键字
    22         for(i = n-k; i < n; i++) y[p++] = i; //y中存放按第二关键字从小到大排序的位置
    23         for(i = 0; i < n; i++) if(sa[i] >= k) y[p++] = sa[i]-k;
    24         //基数排序第一关键字
    25         for(i = 0; i < m; i++) c[i] = 0;
    26         for(i = 0; i < n; i++) c[x[y[i]]]++;
    27         for(i = 0; i < m; i++) c[i] += c[i-1];
    28         for(i = n-1; i >= 0; i--) sa[--c[x[y[i]]]] = y[i];   //i从大到小是为了保证相同字符的情况下默认靠前的更小一些
    29         swap(x, y);  //这里只用交换指针即可
    30         p = 1; x[sa[0]] = 0; //p表示rank值不同的字符串的数量,如果达到n表示字符串的所有关系都找出来了
    31         for(i = 1; i < n; i++)  //重新计算x的值
    32             x[sa[i]] = y[sa[i-1]] == y[sa[i]] && y[sa[i-1]+k] == y[sa[i]+k]?p-1:p++; //第一关键字相同且第二关键字相同
    33         if(p >= n) break; //p起到计数的作用
    34         m = p; // 算是个小优化吧,因为总共就p个,没必要再去遍历那么多
    35     }
    36 }
    37 
    38 void getHeight(int n){
    39     int i,j,k = 0;
    40     for(i = 1; i <= n; i++) Rank[sa[i]] = i; //求出rank值,利用rank和sa是相反的
    41     for(i = 0; i < n; i++){
    42         if(k) k--; //利用h[i] >= h[i-1]+1这个性质,先求出前面的后面的就可以由前面推出
    43         j = sa[Rank[i]-1];
    44         while(s[i+k] == s[j+k]) k++;
    45         height[Rank[i]] = k;
    46     }
    47 }
    48 
    49 void ST_build(int n){
    50     for(int i = 0; i < n; i++){
    51         dp[i][0] = height[i];
    52        // printf("height[%d] = %d
    ", i, height[i]);
    53     }
    54     for(int j = 1; (1<<j) <= n; j++)
    55         for(int i = 0; (i+(1<<j)-1) <= n; i++)
    56             dp[i][j] = min(dp[i][j-1], dp[i+(1<<(j-1))][j-1]);
    57 }
    58 
    59 int query(int i, int j){  //RMQ
    60     int l = min(Rank[i], Rank[j]);
    61     int r = max(Rank[i], Rank[j]);
    62     ++l; //为什么要++l呢 因为height[l]是排名为l与l-1的最长公共序列,l-1不在我们所求的范围内
    63     printf("l = %d, r = %d
    ", l, r);
    64     int cnt = log2(r-l+1), len  = 1<<cnt;
    65     return min(dp[l][cnt], dp[r-len+1][cnt]);
    66 }
    67 
    68 int main(){
    69     int T;
    70     scanf("%d", &T);
    71     while(T--){
    72         scanf("%s", s);
    73         int len = strlen(s);
    74         build_sa(len+1, 130);  //len+1是为了添加一个由字符串结束符为后缀的字符串
    75         getHeight(len);
    76         ST_build(len+1);
    77         int q, l, r;
    78         scanf("%d", &q);
    79         while(q--){   //求从l开始的后缀和从r开始的后缀的最长公共前缀,注意下边从0开始
    80             scanf("%d%d", &l, &r);
    81             if(l == r){
    82                 printf("%d
    ", len-l);
    83                 continue;
    84             }
    85             printf("%d
    ", query(l, r));
    86         }
    87     }
    88     return 0;
    89 }

     新的模版:

      1 #include <stdio.h>
      2 #include <iostream>
      3 #include <algorithm>
      4 #include <string.h>
      5 #include <stdlib.h>
      6 #include <math.h>
      7 #include <queue>
      8 #include <set>
      9 
     10 #define INF 0x3f3f3f3f
     11 #define pii pair<int,int>
     12 #define LL long long
     13 using namespace std;
     14 typedef unsigned long long ull;
     15 const int MAXN = 200005;
     16 
     17 int wa[MAXN], wb[MAXN], wv[MAXN], ws_[MAXN];
     18 void Suffix(int *r, int *sa, int n, int m)
     19 {
     20     int i, j, k, *x = wa, *y = wb, *t;
     21     for(i = 0; i < m; ++i) ws_[i] = 0;
     22     for(i = 0; i < n; ++i) ws_[x[i] = r[i]]++;
     23     for(i = 1; i < m; ++i) ws_[i] += ws_[i - 1];
     24     for(i = n - 1; i >= 0; --i) sa[--ws_[x[i]]] = i;
     25     for(j = 1, k = 1; k < n; j *= 2, m = k)
     26     {
     27         for(k = 0, i = n - j; i < n; ++i) y[k++] = i;
     28         for(i = 0; i < n; ++i) if(sa[i] >= j) y[k++] = sa[i] - j;
     29         for(i = 0; i < n; ++i) wv[i] = x[y[i]];
     30         for(i = 0; i < m; ++i) ws_[i] = 0;
     31         for(i = 0; i < n; ++i) ws_[wv[i]]++;
     32         for(i = 1; i < m; ++i) ws_[i] += ws_[i - 1];
     33         for(i = n - 1; i >= 0; --i) sa[--ws_[wv[i]]] = y[i];
     34         t = x;
     35         x = y;
     36         y = t;
     37         for(x[sa[0]] = 0, i = k = 1; i < n; ++i)
     38             x[sa[i]] = (y[sa[i - 1]] == y[sa[i]] && y[sa[i - 1] + j] == y[sa[i] + j]) ? k - 1 : k++;
     39     }
     40 }
     41 int Rank[MAXN], height[MAXN], sa[MAXN], r[MAXN];
     42 void calheight(int *r,int *sa,int n)
     43 {
     44     int i,j,k=0;
     45     for(i=1; i<=n; i++)Rank[sa[i]]=i;
     46     for(i=0; i<n; height[Rank[i++]]=k)
     47         for(k?k--:0,j=sa[Rank[i]-1]; r[i+k]==r[j+k]; k++);
     48 }
     49 int n,minnum[MAXN][17];
     50 void RMQ()
     51 {
     52     int i,j;
     53     int m=(int)(log(n*1.0)/log(2.0));
     54     for(i=1;i<=n;i++)
     55         minnum[i][0]=height[i];
     56     for(j=1;j<=m;j++)
     57         for(i=1;i+(1<<j)-1<=n;i++)
     58             minnum[i][j]=min(minnum[i][j-1],minnum[i+(1<<(j-1))][j-1]);
     59 }
     60 int Ask_MIN(int a,int b)
     61 {
     62     int k=int(log(b-a+1.0)/log(2.0));
     63     return min(minnum[a][k],minnum[b-(1<<k)+1][k]);
     64 }
     65 int calprefix(int a,int b)
     66 {
     67     a=Rank[a],b=Rank[b];
     68     if(a>b)
     69         swap(a,b);
     70     return Ask_MIN(a+1,b);
     71 }
     72 char s[MAXN];
     73 int q[MAXN];
     74 int main()
     75 {
     76     int k;
     77     cin >> k;
     78     cin >> s;
     79     s[k] = '#';
     80     cin >> (s+k+1);
     81     int n = strlen(s);
     82     for (int i=0;i<n;i++){
     83         r[i] = s[i];
     84     }
     85     int maxx = 0;
     86     Suffix(r,sa,n+1,258);
     87     calheight(r,sa,n);
     88     int x,y;
     89     for (int i=1;i<=n;i++) {
     90         if (height[i] > maxx && 1ll * (sa[i] - k) * (sa[i - 1] - k) < 0){
     91             maxx = height[i];
     92             x = min(sa[i],sa[i-1]);
     93             y = x+maxx;
     94         }
     95     }
     96     for (int i=x;i<y;i++){
     97         printf("%c",s[i]);
     98     }
     99     return 0;
    100 }
  • 相关阅读:
    【iOS】打印方法名
    【iOS】设备系统版本
    【iOS】receiver type *** for instance message is a forward declaration
    【iOS】获取应用程序本地路径
    hash算法
    redis文档
    Couchbase
    nodejs多核处理
    基于nodejs的消息中心
    nodejs两个例子
  • 原文地址:https://www.cnblogs.com/-Ackerman/p/11312783.html
Copyright © 2011-2022 走看看