zoukankan      html  css  js  c++  java
  • 罗穗骞的dc3和倍增法

    主要参考了 .罗穗骞《后缀数组——处理字符串的有力工具》和许智磊的后缀数组,现在能使用罗穗骞的dc3

    算法和倍增法

    倍增法模板o(nlgn)

    view plaincopy to clipboardprint?
    int wa[maxn],wb[maxn],wv[maxn],ws[maxn];  
    int cmp(int *r,int a,int b,int l)  
    {return r[a]==r[b]&&r[a+l]==r[b+l];}  
    void da(int *r,int *sa,int n,int m)  
    {  
    int i,j,p,*x=wa,*y=wb,*t;  
    for(i=0;i<m;i++) ws[i]=0;  
    for(i=0;i<n;i++) ws[x[i]=r[i]]++;  
    for(i=1;i<m;i++) ws[i]+=ws[i-1];  
    for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;  
    for(j=1,p=1;p<n;j*=2,m=p)  
    {  
    for(p=0,i=n-j;i<n;i++) y[p++]=i;  
    for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;  
    for(i=0;i<n;i++) wv[i]=x[y[i]];  
    for(i=0;i<m;i++) ws[i]=0;  
    for(i=0;i<n;i++) ws[wv[i]]++;  
    for(i=1;i<m;i++) ws[i]+=ws[i-1];  
    for(i=n-1;i>=0;i--) sa[--ws[wv[i]]]=y[i];  
    for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)  
    x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;  
    }  
    return;  

    int wa[maxn],wb[maxn],wv[maxn],ws[maxn];
    int cmp(int *r,int a,int b,int l)
    {return r[a]==r[b]&&r[a+l]==r[b+l];}
    void da(int *r,int *sa,int n,int m)
    {
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0;i<m;i++) ws[i]=0;
    for(i=0;i<n;i++) ws[x[i]=r[i]]++;
    for(i=1;i<m;i++) ws[i]+=ws[i-1];
    for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;
    for(j=1,p=1;p<n;j*=2,m=p)
    {
    for(p=0,i=n-j;i<n;i++) y[p++]=i;
    for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
    for(i=0;i<n;i++) wv[i]=x[y[i]];
    for(i=0;i<m;i++) ws[i]=0;
    for(i=0;i<n;i++) ws[wv[i]]++;
    for(i=1;i<m;i++) ws[i]+=ws[i-1];
    for(i=n-1;i>=0;i--) sa[--ws[wv[i]]]=y[i];
    for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)
    x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
    }
    return;
    }

    dc3模板o(n)

    view plaincopy to clipboardprint?
    #define F(x) ((x)/3+((x)%3==1?0:tb))  
    #define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)  
    int wa[maxn],wb[maxn],wv[maxn],ws[maxn];  
    int c0(int *r,int a,int b)  
    {return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}  
    int c12(int k,int *r,int a,int b)  
    {if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);  
    else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}  
    void sort(int *r,int *a,int *b,int n,int m)  
    {  
    int i;  
    for(i=0;i<n;i++) wv[i]=r[a[i]];  
    for(i=0;i<m;i++) ws[i]=0;  
    for(i=0;i<n;i++) ws[wv[i]]++;  
    for(i=1;i<m;i++) ws[i]+=ws[i-1];  
    for(i=n-1;i>=0;i--) b[--ws[wv[i]]]=a[i];  
    return;  
    }  
    void dc3(int *r,int *sa,int n,int m)  
    {  
    int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;  
    r[n]=r[n+1]=0;  
    for(i=0;i<n;i++) if(i%3!=0) wa[tbc++]=i;  
    sort(r+2,wa,wb,tbc,m);  
    sort(r+1,wb,wa,tbc,m);  
    sort(r,wa,wb,tbc,m);  
    for(p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++)  
    rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;  
    if(p<tbc) dc3(rn,san,tbc,p);  
    else for(i=0;i<tbc;i++) san[rn[i]]=i;  
    for(i=0;i<tbc;i++) if(san[i]<tb) wb[ta++]=san[i]*3;  
    if(n%3==1) wb[ta++]=n-1;  
    sort(r,wb,wa,ta,m);  
    for(i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i;  
    for(i=0,j=0,p=0;i<ta && j<tbc;p++)  
    sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];  
    for(;i<ta;p++) sa[p]=wa[i++];  
    for(;j<tbc;p++) sa[p]=wb[j++];  
    return;  

    #define F(x) ((x)/3+((x)%3==1?0:tb))
    #define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
    int wa[maxn],wb[maxn],wv[maxn],ws[maxn];
    int c0(int *r,int a,int b)
    {return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}
    int c12(int k,int *r,int a,int b)
    {if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);
    else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}
    void sort(int *r,int *a,int *b,int n,int m)
    {
    int i;
    for(i=0;i<n;i++) wv[i]=r[a[i]];
    for(i=0;i<m;i++) ws[i]=0;
    for(i=0;i<n;i++) ws[wv[i]]++;
    for(i=1;i<m;i++) ws[i]+=ws[i-1];
    for(i=n-1;i>=0;i--) b[--ws[wv[i]]]=a[i];
    return;
    }
    void dc3(int *r,int *sa,int n,int m)
    {
    int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
    r[n]=r[n+1]=0;
    for(i=0;i<n;i++) if(i%3!=0) wa[tbc++]=i;
    sort(r+2,wa,wb,tbc,m);
    sort(r+1,wb,wa,tbc,m);
    sort(r,wa,wb,tbc,m);
    for(p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++)
    rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
    if(p<tbc) dc3(rn,san,tbc,p);
    else for(i=0;i<tbc;i++) san[rn[i]]=i;
    for(i=0;i<tbc;i++) if(san[i]<tb) wb[ta++]=san[i]*3;
    if(n%3==1) wb[ta++]=n-1;
    sort(r,wb,wa,ta,m);
    for(i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i;
    for(i=0,j=0,p=0;i<ta && j<tbc;p++)
    sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
    for(;i<ta;p++) sa[p]=wa[i++];
    for(;j<tbc;p++) sa[p]=wb[j++];
    return;
    }

    不过神罗说da的n实际上小于dc3的n,所以速度上差距在0.33之间。考虑coding的速度

    可以选倍增法。但是我用起来两个都不顺手:(

    后缀数组的核心是两个后缀之间的height值

    由一个不知道是哪里来的公式

    h[i]≥h[i-1]-1

    从而计算出height

    view plaincopy to clipboardprint?
    int rank[maxn],height[maxn];  
    void calheight(int *r,int *sa,int n)  
    {  
    int i,j,k=0;  
    for(i=1;i<=n;i++) rank[sa[i]]=i;  
    for(i=0;i<n;height[rank[i++]]=k)  
    for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);  
    return;  

    int rank[maxn],height[maxn];
    void calheight(int *r,int *sa,int n)
    {
    int i,j,k=0;
    for(i=1;i<=n;i++) rank[sa[i]]=i;
    for(i=0;i<n;height[rank[i++]]=k)
    for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);
    return;
    }

    然后就可以调用计算啦!(calheight调用时n为原始值)

    dc3的调用格式是dc3(r,sa,n,m)//r为数据数组,要int化,sa是计算以后返回的值。n是数据个数+1,m是最大不超过的数字。设为128或则大一点maxn也可以。。

    da调用方法类似,要进行微调

    输入的时候建议view plaincopy to clipboardprint?
    scanf("%s",s+len)//len为以前输入的字符串长度 
    scanf("%s",s+len)//len为以前输入的字符串长度

    搜索的时候用二分法,递归的好理解的方法为view plaincopy to clipboardprint?
    int BSearch(int left,int right)  
    {  
        if(left>right)  
            return right;  
        int mid=(left+right)/2;  
        if(pend(mid))BSearch(mid+1,right);//pend为自定义函数  
        else BSearch(left,mid-1);  

    int BSearch(int left,int right)
    {
        if(left>right)
            return right;
        int mid=(left+right)/2;
        if(pend(mid))BSearch(mid+1,right);//pend为自定义函数
        else BSearch(left,mid-1);
    }

     单子串

     不可重叠最长重复子串 (pku1743)

    要先对height根据二分法进行分组,容易看出最大重复字串一定在

    同一组中。那样只要判断每一组的sa最大和最小值是否大于等于k

    如果是,则存在。

    sa是计算出来后缀的最长公共前缀的字典序排名、

    可重叠的k 次最长重复子串(pku3261)

    这题和上题基本一样,在二分后计算的时候判断每一组是否大于k

    连续重复子串


    可以在两个字符串之间加各种不同符号。ascii中0除外,只要不和数组中其他字符重复就可以了

    然后可以把他当成单子串来做。

    只要求height中的最大值,但是需要是在不同的组中的height,即用不同符号分割的。

    pku2774,pku3294

    最郁闷的就是3294 ,poj中很多东西都会有暗桩.我找waterloo的原始数据也测过了,在uva上的11107也是相同提也ac的,这里就是死活wa。就这样,先放在这里吧。

    本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/yc0576/archive/2010/03/01/5334861.aspx

  • 相关阅读:
    string_view暴力串串题
    字符串hash暴力串串题
    C++刷leetcode几点注意事项
    微软面试算法题(整理)
    Leetcode中的Dijkstra算法
    gdb在线调试多线程程序
    2022亚马逊校园招聘软件开发实习提前批面试题
    python模块tqdm(进度条)的使用
    解决 Failed while installing Dynamic Web Module
    最新eclipse从零开始建立SpringMVC项目(详细过程)
  • 原文地址:https://www.cnblogs.com/ACAC/p/1749444.html
Copyright © 2011-2022 走看看