zoukankan      html  css  js  c++  java
  • UVA11107 Life Forms 后缀数组 求最长出现次数超过一半的子串

    UVA11107 Life Forms 后缀数组 求最长出现次数超过一半的子串

    题意

    输入(n)个DNA序列,你的任务是求出一个长度最大的字符串,使得它在超过一半的DNA序列中连续出现。如果有多解,按照字典序从小到大输出

    [n leq 100\ |s| leq 1000 ]

    分析

    首先用不同的分隔符把所有输入字符串(简称原串)拼起来,求这个新串的后缀数组和height数组,然后二分答案,即判断是否存在长度为(p)的串在超过一半的串中连续出现,判断方法是对height分组,扫描一遍height数组若包含超过(n / 2)个原串的后缀(p)就满足条件

    判断时,需要(belong)数组用于标记这个串属于第几个串,以及一个(vis)数组标记这个串是否被访问

    输出时,再扫描一遍即可

    代码

    int s[maxn];
    int sa[maxn],t[maxn],t2[maxn],c[maxn],n;
    int len;
    
    void build_sa(int m){
    	int *x = t,*y = t2;
    	for(int i = 0;i < m;i++) c[i] = 0;
    	for(int i = 0;i < len;i++) c[x[i] = s[i]]++;
    	for(int i = 1;i < m;i++) c[i] += c[i -1];
    	for(int i = len - 1;i >= 0;i--) sa[--c[x[i]]] = i;
    	for(int k = 1;k <= len;k <<= 1){
    		int p = 0;
    		for(int i = len - k;i < len;i++) y[p++] = i;
    		for(int i = 0;i < len;i++) if(sa[i] >= k) y[p++] = sa[i] - k;
    		for(int i = 0;i < m;i++) c[i] = 0;
    		for(int i = 0;i < len;i++) c[x[y[i]]]++;
    		for(int i = 0;i < m;i++) c[i] += c[i - 1];
    		for(int i = len - 1;i >= 0;i--) sa[--c[x[y[i]]]] = y[i];
    		swap(x,y);
    		p = 1;
    		x[sa[0]] = 0;
    		for(int i = 1;i < len;i++)
    			x[sa[i]] = y[sa[i - 1]] == y[sa[i]] && y[sa[i] + k] == y[sa[i - 1] + k] ? p - 1:p++;
    		if(p >= len) break;
    		m = p;
    	}
    }
    
    int rak[maxn],height[maxn];
    
    void getHeight(){
    	int k = 0;
    	for(int i = 0;i < len;i++) rak[sa[i]] = i;
    	for(int i = 0;i < len;i++){
    		if(k) k--;
    		int j = sa[rak[i] - 1];
    		while(s[i + k] == s[j + k]) k++;
    		height[rak[i]] = k;
    	}
    }
    
    vector<int> ans;
    int belong[maxn];
    
    bool check(int p){
    	int tot = 0;
    	unordered_map<int,bool> mp;
    	for(int i = 0;i < len;i++){
    		if(height[i] >= p) {
    			if(!mp[belong[sa[i]]])
    			mp[belong[sa[i]]] = 1,tot++;
    		}		
    		else {
    			mp.clear();
    			tot = 0;
    			if(!mp[belong[sa[i]]]) {
    				mp[belong[sa[i]]] = 1;
    				tot++;
    			}
    		}
    		if(tot > n / 2) return true;
    	}
    	return false;
    }
    
    int solve(){
    	int l = 0,r = len;
    	while(l < r){
    		int mid = l + r  + 1 >> 1;
    		if(check(mid)) l = mid ;
    		else r = mid - 1;
    	}
    	return l;
    }
    
    int main(){
    	bool flag = true;
    	while(scanf("%d",&n) && n){
    		if(!flag) puts("");
    		else flag = false;
    		ans.clear();
    		int cnt = 0;
    		int now = 30;
    		for(int i = 0;i < n;i++){
    			char tmp[1005];
    			scanf("%s",tmp);
    			int l = strlen(tmp);
    			for(int j = 0;j < l;j++){
    				s[j + cnt] = tmp[j] - 'a' + 1;
    				belong[j + cnt] = i;
    			}
    			s[l + cnt] = now++;
    			belong[l + cnt] = i + 1;
    			cnt += l + 1;
    		}
    		s[cnt] = 0;
    		belong[cnt] = n;
    		len = cnt + 1;
    		build_sa(200);
    		getHeight();
    		int ans = solve();	
    		if(!ans) {
    			puts("?");
    			continue;
    		}
    		{
    		int tot = 0;
    		unordered_map<int,bool> mp;
    		for(int i = 0;i < len;i++){
    			if(height[i] >= ans) {
    				if(!mp[belong[sa[i]]])
    				mp[belong[sa[i]]] = 1,tot++;
    			}		
    			else {
    				if(tot > n / 2) {
    					int cur = sa[i - 1];
    					for(int i = cur;i < cur + ans;i++)
    						printf("%c",(char)(s[i] + 'a' - 1));
    					puts("");
    				}
    				mp.clear();
    				tot = 0;
    				if(!mp[belong[sa[i]]]) {
    					mp[belong[sa[i]]] = 1;
    					tot++;
    				}				
    			}
    			
    		}
    		if(tot > n / 2) {
    			for(int i = sa[n - 1];i < sa[n - 1] + ans;i++)
    				printf("%c",(char)(s[i] + 'a' - 1));
    			puts("");
    		}	
    		}
    	}	
    }
    
  • 相关阅读:
    查看windows下指定的端口是否开放
    网易云音乐评论爬虫:爬取歌曲的全部评论
    用 Python 玩转 GitHub 的贡献板
    用python实现linux口令破解
    Python 音频数据扩充的技巧
    教你使用python+Opencv完成人脸解锁
    opencv+Python特征检测及K-最近邻匹配
    opencv+python 统计及绘制直方图
    学会用这个工具做分析,1年积累3年工作经验
    15分钟,教你用Python爬网站数据,并用BI可视化分析!
  • 原文地址:https://www.cnblogs.com/hznumqf/p/14058041.html
Copyright © 2011-2022 走看看