zoukankan      html  css  js  c++  java
  • 后缀数组模板

    后缀数组资料参考 ==> 链接1 、 链接2 、 论文《后缀数组——处理字符串的有力工具》 、 Height数组与H数组讲解

     

    DA(倍增算法)  时间复杂度是 O(nlogn),然后空间复杂度是 O(n)

    const int N = 100005;
    int wa[N],wb[N],wv[N],ws[N];
    int cmp(int *r,int a,int b,int l) { return r[a]==r[b]&&r[a+l]==r[b+l]; }
    void da(int *r,int *sa,int n,int m)//这里的n传入时要人工+1,避免CMP时越界
    {
        int i,j,p,*x=wa,*y=wb;
        // 下面四行是对第一个字母的一个基数排序:基数排序其实就是记录前面有多少个位置被占据了
        for(i=0;i<m;i++) ws[i]=0; // 将统计字符数量的数组清空
        for(i=0;i<n;i++) ws[x[i]=r[i]]++; // 统计各种字符的个数
        for(i=1;i<m;i++) ws[i]+=ws[i-1]; // 进行一个累加,因为前面的小字符集对后面字符的排位有位置贡献
        for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i; // 根据位置来排序,sa[x] = i,表示i位置排在第x位
        // wa[x[i]]就是字符集0-x[i]共有多少字符占据了位置,减去自己的一个位置剩下的就是自己的排名了,排名从0开始
        // 排名过程中主要的过程是对于处于相同字符的字符的排序,因为改变wa[x[i]]值得只会是本身,小于该字符的贡献值
        // 是不变的,对于第一个字符相同的依据是位置关系,在后面将看到通过第二个关键字来确定相同字符的先后关系
    
        // 这以后的排序都是通过两个关键字来确定一个串的位置,也即倍增思想
        // 通过将一个串分解成两部分,而这两部分的位置关系我们都已经计算出来
        for(j=1,p=1;p<n;j*=2,m=p)
        {
            for(p=0,i=n-j;i<n;i++) y[p++]=i; // 枚举的串是用于与i位置的串进行合并,由于i较大,因为匹配的串为空串
            // 由于枚举的是长度为j的串,那么i位置开始的串将凑不出这个长度的串,因此第二关键字应该最小,这其中位置靠前的较小
            for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j; // sa[i]-j开头的串作为第二关键字与编号为sa[i]的串匹配,sa[i]<j的串不用作为第二关键字来匹配
            for(i=0;i<n;i++) wv[i]=x[y[i]]; // 取出这些位置的第一关键字
            for(i=0;i<m;i++) ws[i]=0;
            for(i=0;i<n;i++) ws[wv[i]]++;
            for(i=1;i<m;i++) ws[i]+=ws[i-1];
            for(i=n-1;i>=0;i--) sa[--ws[wv[i]]]=y[i]; // 按照第二关键字进行第一关键字的基数排序
            for(swap(x,y),p=1,x[sa[0]]=0,i=1;i<n;i++) // 对排好序的sa数组进行一次字符集缩小、常数优化
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
        }
        return;
    }
    int rank[N],height[N];
    void calheight(int *r,int *sa,int n) // 这里的n是原串的本来长度,即不包括新增的0
    {
        int i,j,k=0;
        for(i=1;i<=n;i++) rank[sa[i]]=i; // 有后缀数组得到名次数组,排名第0的后缀一定是添加的0
        for(i=0;i<n;height[rank[i++]]=k) // 以 i 开始的后缀总能够从以 i-1 开始的后缀中继承 k-1 匹配项出来
        for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++); // 进行一个暴力的匹配,但是整个算法的时间复杂度还是O(n)的
        return;
    }
    带注释版
    const int maxn = 10005;
    int sa[maxn],s[maxn],wa[maxn], wb[maxn], Ws[maxn], wv[maxn];
    int Rank[maxn], height[maxn];
    bool cmp(int r[], int a, int b, int l){ return r[a] == r[b] && r[a+l] == r[b+l]; }
    void da(int r[], int sa[], int n, int m)
    {
        int i, j, p, *x = wa, *y = wb;
        for (i = 0; i < m; ++i) Ws[i] = 0;
        for (i = 0; i < n; ++i) Ws[x[i]=r[i]]++;
        for (i = 1; i < m; ++i) Ws[i] += Ws[i-1];
        for (i = n-1; i >= 0; --i) sa[--Ws[x[i]]] = i;
        for (j = 1, p = 1; p < n; j *= 2, m = p)
        {
            for (p = 0, i = n - j; i < n; ++i) y[p++] = i;
            for (i = 0; i < n; ++i) if (sa[i] >= j) y[p++] = sa[i] - j;
            for (i = 0; i < n; ++i) wv[i] = x[y[i]];
            for (i = 0; i < m; ++i) Ws[i] = 0;
            for (i = 0; i < n; ++i) Ws[wv[i]]++;
            for (i = 1; i < m; ++i) Ws[i] += Ws[i-1];
            for (i = n-1; i >= 0; --i) sa[--Ws[wv[i]]] = y[i];
            for (std::swap(x, y), p = 1, x[sa[0]] = 0, i = 1; i < n; ++i)
                x[sa[i]] = cmp(y, sa[i-1], sa[i], j) ? p-1 : p++;
        }
    }
    void calheight(int r[], int sa[], int n)
    {
        int i, j, k = 0;
        for (i = 1; i <= n; ++i) Rank[sa[i]] = i;
        for (i = 0; i < n; height[Rank[i++]] = k)
            for (k?k--:0, j = sa[Rank[i]-1]; r[i+k] == r[j+k]; k++);
    }
    View Code

    DC3构造法  时间复杂度则是 O(n),而空间复杂度是 O(3n)

    const int maxn = int(3e6)+10;///注意空间是要开到 3N 的
    const int N = maxn;
    
    #define F(x) ((x)/3+((x)%3==1?0:tb))
    #define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
    int wa[maxn],wb[maxn],wv[maxn],Ws[maxn];
    int c0(int *r,int a,int b)
    {return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}
    int c12(int k,int *r,int a,int b)
    {if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);
    else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}
    void Sort(int *r,int *a,int *b,int n,int m)
    {
        int i;
        for(i=0;i<n;i++) wv[i]=r[a[i]];
        for(i=0;i<m;i++) Ws[i]=0;
        for(i=0;i<n;i++) Ws[wv[i]]++;
        for(i=1;i<m;i++) Ws[i]+=Ws[i-1];
        for(i=n-1;i>=0;i--) b[--Ws[wv[i]]]=a[i];
        return;
    }
    void dc3(int *r,int *sa,int n,int m) //涵义与DA 相同
    {
        int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
        r[n]=r[n+1]=0;
        for(i=0;i<n;i++) if(i%3!=0) wa[tbc++]=i;
        Sort(r+2,wa,wb,tbc,m);
        Sort(r+1,wb,wa,tbc,m);
        Sort(r,wa,wb,tbc,m);
        for(p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++)
        rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
        if(p<tbc) dc3(rn,san,tbc,p);
        else for(i=0;i<tbc;i++) san[rn[i]]=i;
        for(i=0;i<tbc;i++) if(san[i]<tb) wb[ta++]=san[i]*3;
        if(n%3==1) wb[ta++]=n-1;
        Sort(r,wb,wa,ta,m);
        for(i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i;
        for(i=0,j=0,p=0;i<ta && j<tbc;p++)
        sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
        for(;i<ta;p++) sa[p]=wa[i++];
        for(;j<tbc;p++) sa[p]=wb[j++];
        return;
    }
    View Code

    四个数组

    SA[ i ] 数组代表第 i 位的后缀的起始下标

    Rank[ i ] 数组代表后缀 Suffix(i) 排在第几

    Height[ i ] 数组为 Suffix(SA[ i-1 ]) 和 Suffix(SA[ i ]) 的最长公共前缀,即排名相邻的两个后缀的最长公共前缀的长度 

    H[ i ]  其实就是 Height[ rank[ i ] ],也就是 Suffix(i) 和排序后在它前一名的后缀的最长公共前缀的长度

    备注: SA 和 Rank 数组是互逆数组,也就是 SA[ Rank[ i ] ] = Rank[ SA[ i ] ] = i

    这里简要记一下,SA 和 Height 送进去的数组下标含义其实就是排名,而 Rank 和 H 送进去的数组下标就是位置

    即 SA[排名]、Height[排名]、Rank[起始位置]、H[起始位置]

  • 相关阅读:
    rest framework 认证 权限 频率
    rest framework 视图,路由
    rest framework 序列化
    10.3 Vue 路由系统
    10.4 Vue 父子传值
    10.2 Vue 环境安装
    10.1 ES6 的新增特性以及简单语法
    Django 跨域请求处理
    20190827 On Java8 第十四章 流式编程
    20190825 On Java8 第十三章 函数式编程
  • 原文地址:https://www.cnblogs.com/qwertiLH/p/7846298.html
Copyright © 2011-2022 走看看