zoukankan      html  css  js  c++  java
  • POJ 3261 Milk Patterns(后缀数组+二分答案+离散化)

    题意:给定一个字符串,求至少出现k 次的最长重复子串,这k 个子串可以重叠。

    分析:经典的后缀数组求解题:先二分答案,然后将后缀分成若干组。这里要判断的是有没有一个组的符合要求的后缀个数(height[i] >= mid)不小于k。如果有,那么存在
    k 个相同的子串满足条件,否则不存在。

    #include <cstdio>
    #include <iostream>
    #include <cstring>
    #include <algorithm>
    using namespace std;
    #define N 22222
    #define M 1111111
    #define INF 0x7FFFFFFF
    /****后缀数组模版****/
    #define F(x)((x)/3+((x)%3==1?0:tb)) //F(x)求出原字符串的suffix(x)在新的字符串中的起始位置
    #define G(x)((x)<tb?(x)*3+1:((x)-tb)*3+2) //G(x)是计算新字符串的suffix(x)在原字符串中的位置,和F(x)为互逆运算
    int wa[N],wb[N],wv[N],WS[M];
    int sa[N*3] ; //第i小的后缀,起始位置在源字符串的位置
    int rank1[N],height[N]; //rank 以i为起始位置的后缀在后缀排列中的名次
    int r[N*3]; //如果输入是字符串,承接字符串,用来计算
    
    
    int c0(int *r,int a,int b) {
        return r[a]==r[b] && r[a+1]==r[b+1] && r[a+2]==r[b+2];
    }
    int c12(int k,int *r,int a,int b) {
        if(k==2)
            return r[a]<r[b] || ( r[a]==r[b] && c12(1,r,a+1,b+1) );
        else
            return r[a]<r[b] || ( r[a]==r[b] && wv[a+1]<wv[b+1] );
    }
    void sort(int *r,int *a,int *b,int n,int m) {
        int i;
        for(i=0; i<n; i++)
            wv[i]=r[a[i]];
        for(i=0; i<m; i++)
            WS[i]=0;
        for(i=0; i<n; i++)
            WS[wv[i]]++;
        for(i=1; i<m; i++)
            WS[i]+=WS[i-1];
        for(i=n-1; i>=0; i--)
            b[--WS[wv[i]]]=a[i];
        return;
    }
    
    //注意点:为了方便下面的递归处理,r数组和sa数组的大小都要是3*n
    void dc3(int *r,int *sa,int n,int m) { //rn数组保存的是递归处理的新字符串,san数组是新字符串的sa
        int i , j , *rn = r+n , *san = sa+n , ta = 0 ,tb = (n+1)/3 , tbc = 0 , p;
        r[n] = r[n+1] = 0;
        for(i=0; i<n; i++) {
            if(i%3!=0)
                wa[tbc++]=i; //tbc表示起始位置模3为1或2的后缀个数
        }
        sort(r+2,wa,wb,tbc,m);
        sort(r+1,wb,wa,tbc,m);
        sort(r,wa,wb,tbc,m);
        for(p=1,rn[F(wb[0])]=0,i=1; i<tbc; i++)
            rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
        if(p<tbc)
            dc3(rn,san,tbc,p);
        else {
            for(i=0; i<tbc; i++)
                san[rn[i]]=i;
        }
    //对所有起始位置模3等于0的后缀排序
        for(i=0; i<tbc; i++) {
            if(san[i]<tb)
                wb[ta++]=san[i]*3;
        }
        if(n%3==1)  //n%3==1,要特殊处理suffix(n-1)
            wb[ta++]=n-1;
        sort(r,wb,wa,ta,m);
        for(i=0; i<tbc; i++)
            wv[wb[i] = G(san[i])]=i;
    //合并所有后缀的排序结果,保存在sa数组中
        for(i=0,j=0,p=0; i<ta&&j<tbc; p++)
            sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
        for(; i<ta; p++)
            sa[p]=wa[i++];
        for(; j<tbc; p++)
            sa[p]=wb[j++];
        return;
    }
    
    //height[i]=suffix(sa[i-1])和suffix(sa[i])的最长公共前缀,也就是排名相邻的两个后缀的最长公共前缀
    void calheight(int *r,int *sa,int n) {
        int i,j,k=0;
        for(i=1; i<=n; i++)
            rank1[sa[i]]=i;
        for(i=0; i<n; height[rank1[i++]]=k)
            for(k?k--:0,j=sa[rank1[i]-1]; r[i+k]==r[j+k]; k++);
    }
    
    bool judge(int mid,int n,int k) {
        int cnt = 1;
        for(int i=1; i<=n; i++) {
            if(height[i] >= mid) {
                cnt ++;
            } else cnt = 1;
            if(cnt >= k) return true;
        }
        return false;
    }
    
    int main() {
        int n,k;
        cin >> n >> k;
        for(int i=0; i<n; i++) {
            scanf("%d",&r[i]);
            r[i] ++;
        }
        r[n] = 0; //要保证结尾最小
        dc3(r,sa,n+1,1000010);
        calheight(r,sa,n);
        int l=1, r=n,mid; //枚举长度
        int ans = 0;
        while(l <= r) {
            mid = (l+r) >> 1;
            if(judge(mid,n,k)) {
                ans = mid;
                l = mid + 1;
            } else {
                r = mid - 1;
            }
        }
        cout << ans << endl;
        return 0;
    }


    因为m太大,而n只有2w,简单的离散化之后,基数排序效率提高,总效率也提高了

    #include <cstdio>
    #include <iostream>
    #include <cstring>
    #include <algorithm>
    using namespace std;
    #define N 22222
    #define INF 0x7FFFFFFF
    /****后缀数组模版****/
    #define F(x)((x)/3+((x)%3==1?0:tb)) //F(x)求出原字符串的suffix(x)在新的字符串中的起始位置
    #define G(x)((x)<tb?(x)*3+1:((x)-tb)*3+2) //G(x)是计算新字符串的suffix(x)在原字符串中的位置,和F(x)为互逆运算
    int wa[N],wb[N],wv[N],WS[N];
    int sa[N*3] ; //第i小的后缀,起始位置在源字符串的位置
    int rank1[N],height[N]; //rank 以i为起始位置的后缀在后缀排列中的名次
    int r[N*3]; //如果输入是字符串,承接字符串,用来计算
    
    
    int c0(int *r,int a,int b) {
        return r[a]==r[b] && r[a+1]==r[b+1] && r[a+2]==r[b+2];
    }
    int c12(int k,int *r,int a,int b) {
        if(k==2)
            return r[a]<r[b] || ( r[a]==r[b] && c12(1,r,a+1,b+1) );
        else
            return r[a]<r[b] || ( r[a]==r[b] && wv[a+1]<wv[b+1] );
    }
    void sort(int *r,int *a,int *b,int n,int m) {
        int i;
        for(i=0; i<n; i++)
            wv[i]=r[a[i]];
        for(i=0; i<m; i++)
            WS[i]=0;
        for(i=0; i<n; i++)
            WS[wv[i]]++;
        for(i=1; i<m; i++)
            WS[i]+=WS[i-1];
        for(i=n-1; i>=0; i--)
            b[--WS[wv[i]]]=a[i];
        return;
    }
    
    //注意点:为了方便下面的递归处理,r数组和sa数组的大小都要是3*n
    void dc3(int *r,int *sa,int n,int m) { //rn数组保存的是递归处理的新字符串,san数组是新字符串的sa
        int i , j , *rn = r+n , *san = sa+n , ta = 0 ,tb = (n+1)/3 , tbc = 0 , p;
        r[n] = r[n+1] = 0;
        for(i=0; i<n; i++) {
            if(i%3!=0)
                wa[tbc++]=i; //tbc表示起始位置模3为1或2的后缀个数
        }
        sort(r+2,wa,wb,tbc,m);
        sort(r+1,wb,wa,tbc,m);
        sort(r,wa,wb,tbc,m);
        for(p=1,rn[F(wb[0])]=0,i=1; i<tbc; i++)
            rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
        if(p<tbc)
            dc3(rn,san,tbc,p);
        else {
            for(i=0; i<tbc; i++)
                san[rn[i]]=i;
        }
    //对所有起始位置模3等于0的后缀排序
        for(i=0; i<tbc; i++) {
            if(san[i]<tb)
                wb[ta++]=san[i]*3;
        }
        if(n%3==1)  //n%3==1,要特殊处理suffix(n-1)
            wb[ta++]=n-1;
        sort(r,wb,wa,ta,m);
        for(i=0; i<tbc; i++)
            wv[wb[i] = G(san[i])]=i;
    //合并所有后缀的排序结果,保存在sa数组中
        for(i=0,j=0,p=0; i<ta&&j<tbc; p++)
            sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
        for(; i<ta; p++)
            sa[p]=wa[i++];
        for(; j<tbc; p++)
            sa[p]=wb[j++];
        return;
    }
    
    //height[i]=suffix(sa[i-1])和suffix(sa[i])的最长公共前缀,也就是排名相邻的两个后缀的最长公共前缀
    void calheight(int *r,int *sa,int n) {
        int i,j,k=0;
        for(i=1; i<=n; i++)
            rank1[sa[i]]=i;
        for(i=0; i<n; height[rank1[i++]]=k)
            for(k?k--:0,j=sa[rank1[i]-1]; r[i+k]==r[j+k]; k++);
    }
    
    bool judge(int mid,int n,int k) {
        int cnt = 1;
        for(int i=1; i<=n; i++) {
            if(height[i] >= mid) {
                cnt ++;
            } else cnt = 1;
            if(cnt >= k) return true;
        }
        return false;
    }
    int xx[N],x[N];
    int search(int v,int m) {
        int l = 0,r = m-1;
        while(l <= r) {
            int mid = (l + r) /2;
            if(x[mid] == v)
                return mid;
            if(v < x[mid])
                r = mid-1;
            else
                l = mid+1;
        }
        return -1;
    }
    int main() {
        int n,k;
        cin >> n >> k;
        for(int i=0; i<n; i++) {
            scanf("%d",&x[i]);
            xx[i] = x[i];
        }
        int m = 1;
        for (int i=1; i<n; i++) { //离散化去重
            if (x[i] != x[i-1]) x[m ++] = x[i];
        }
        sort(x,x+m);
        for(int i=0; i<n; i++) r[i] = search(xx[i],m) + 1;
    //    for(int i=0; i<n; i++) cout << r[i] << ' ';
    //    cout << endl;
        r[n] = 0; //要保证结尾最小
        dc3(r,sa,n+1,20001);
        calheight(r,sa,n);
        int l=1, r=n,mid; //枚举长度
        int ans = 0;
        while(l <= r) {
            mid = (l+r) >> 1;
            if(judge(mid,n,k)) {
                ans = mid;
                l = mid + 1;
            } else {
                r = mid - 1;
            }
        }
        cout << ans << endl;
        return 0;
    }


  • 相关阅读:
    忙碌进度条
    WPF异步调用WCF
    Oracle 数据类型及存储方式(二)
    C# 与Oracle Data Type Mappings
    【CEO来信】任正非寄语2010:开放、妥协与灰度
    数据库数据类型
    asccii 表
    SQlServer2008 表结构查询
    Oracle 数据类型及存储方式(六)
    应用特征备份
  • 原文地址:https://www.cnblogs.com/riskyer/p/3263222.html
Copyright © 2011-2022 走看看