zoukankan      html  css  js  c++  java
  • bzoj 2251: [2010Beijing Wc]外星联络

    LINK:外星联络

    给出一个字符串 求 输出所有出现超过一次的子串的次数。输出子串次数按照子串字典序输出。

    考虑求出某个子串出现的次数 SAM或者SA都可以。考虑字典序输出 显然按照SAM的字典序便利一遍就行了。

    但是,考虑用SA来做可以发现 求出现次数我们是用height来求的。

    我们要输出也肯定是在SA数组上输出。

    考虑对于一个串 我们要输出什么 上次和这次匹配长度为w 那么我们要输出 w+1~s(当前子串的长度。

    这个时候height数组上二分即可。当然还有更暴力的做法 我们发现 输出的数量级是(n^2) 我们直接维护指针向右扫即可 不需要二分。

    可以发现二分的复杂度为(n^2log)而暴力的复杂度为均摊(n^2).

    (话说这个SA还是有点难度的 得搞一个单调栈 先正着扫再输出会好一点。。

    const int MAXN=3010<<1;
    int n,m=2,top;
    int s[MAXN],w[MAXN];
    int sa[MAXN],rk[MAXN],h[MAXN],x[MAXN],y[MAXN],c[MAXN];
    char a[MAXN];
    inline void SA()
    {
    	rep(1,n,i)++c[x[i]=(a[i]-'0')];
    	rep(1,m,i)c[i]+=c[i-1];
    	for(int i=n;i>=1;--i)sa[c[x[i]]--]=i;
    	for(int k=1;k<=n;k=k<<1)
    	{
    		int num=0;
    		rep(n-k+1,n,i)y[++num]=i;
    		rep(1,n,i)if(sa[i]>k)y[++num]=sa[i]-k;
    		rep(0,m,i)c[i]=0;
    		rep(1,n,i)++c[x[i]];
    		rep(1,m,i)c[i]+=c[i-1];
    		for(int i=n;i>=1;--i)sa[c[x[y[i]]]--]=y[i];
    		rep(1,n,i)y[i]=x[i],x[i]=0;
    		x[sa[1]]=num=1;
    		rep(2,n,i)x[sa[i]]=y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k]?num:++num;
    		if(num==n)break;
    		m=num;
    	}
    }
    inline void get_H()
    {
    	rep(1,n,i)rk[sa[i]]=i;
    	int k=0;
    	rep(1,n,i)
    	{
    		if(rk[i]==1)continue;
    		if(k)--k;//h[i]>=h[i-1]-1
    		int j=sa[rk[i]-1];
    		while(a[i+k]==a[j+k])++k;
    		h[rk[i]]=k;
    	}
    }
    int main()
    {
    	freopen("1.in","r",stdin);
    	gt(n);gc(a);
    	SA();get_H();
    	//rep(1,n,i)put(h[i]);
    	rep(1,n,i)
    	{
    		s[top=1]=h[i+1];w[top=1]=i+1;
    		rep(i+2,n,j)
    		{
    			if(h[j]<s[top])s[++top]=h[j],w[top]=j;
    			else w[top]=j;
    		}
    		int last=h[i];
    		for(int j=top;j>=1;--j)
    		{
    			if(s[j]>last)
    			{
    				rep(last+1,s[j],k)put(w[j]-i+1);
    				last=s[j];
    			}
    		}
    	}
    	return 0;
    }
    

    考虑一下SAM 为什么是正确的?我有点忘了SAM的一些性质了 首先 SAM可以识别所有的子串。
    所以我们按照字典序便利到达的每个节点都是子串 但是 一个点可能被到达多次

    这是因为 由于我们点数的数量级为O(n) 所以必然一个点承载着多个子串 但是这并不影响我们的字典序输出。

    为什么一个点到达多次 因为他们的right集合相同 所以可知尽管一点被遍历多次 可以发现是不同的子串。

    值得一提的是 这道题 有trie树的做法 直接暴力遍历trie即可(简单粗暴的n^2.

  • 相关阅读:
    .net程序调用检测和性能分析工具——DotTrace
    HR系统邮件审批功能总结
    添加AD验证(域身份验证)到现有网站
    【事务】:数据库事务隔离级别、脏读、幻读、不可重复读
    【TensorFlow】:解决TensorFlow的ImportError: DLL load failed: 动态链接库(DLL)初始化例程失败
    【Anaconda】:科学计算的Python发行版
    【Junit4】:要点随笔
    【ElasticSearch】:elasticsearch.yml配置
    【ElasticSearch】:Windows下ElasticSearch+版本安装head
    ArrayList、Vector、HashMap、HashTable、HashSet的默认初始容量、加载因子、扩容增量
  • 原文地址:https://www.cnblogs.com/chdy/p/12575304.html
Copyright © 2011-2022 走看看