P3966 [TJOI2013]单词
题目链接:https://www.luogu.org/problemnew/show/P3966
题目描述
小张最近在忙毕设,所以一直在读论文。一篇论文是由许多单词组成但小张发现一个单词会在论文中出现很多次,他想知道每个单词分别在论文中出现了多少次。
输入输出格式
输入格式:
第一行一个整数N,表示有N个单词。接下来N行每行一个单词,每个单词都由小写字母(a-z)组成。(N≤200)
输出格式:
输出N个整数,第i行的数表示第i个单词在文章中出现了多少次。
输入输出样例
说明
数据范围
30%的数据, 单词总长度不超过10^3
100%的数据,单词总长度不超过10^6
题解:
这个题其实问的是一个单词在其它单词中出现的次数,题意有点不清晰吧= =
一个单词若在其它单词中出现,那么其它单词的那一条链上,至少会有一个fail指针指向这个单词的末尾,表面这个单词为目前结点的后缀。
那么我们可以考虑将fail指针翻转,构成一个fail树,那么若统计A单词在其它单词中的出现次数,就直接看以A为根的子树一共有多少个结点就行了。
总体思路就是这样,由于单词可能会重合,并且某些单词可能为另一些单词的前缀,那么我们首先可以记录一共有多少个单词经过单词A的尾节点,假设记为v,那么说明现在他作为前缀的情况有v个了。
之后便根据后面的结点的fail指针从下往上进行更新,来统计作为后缀的情况(注意这里必须从下往上才能保证正确性,并且时间复杂度也比较低),具体的方法就是根据bfs序来进行更新,因为bfs序越大的,那么说明它的深度肯定在更下面,反正不会在上面= =
代码如下:
#include <bits/stdc++.h> using namespace std; typedef long long ll; const int N = 1e6+205; int n,tot; char s[N]; int num[N],Q[N]; queue <int> q; struct Aho_Corasick{ int Size; int ch[N][30]; int val[N]; int fail[N]; void init(){ Size=-1; newnode(); } int newnode(){ memset(ch[++Size],0,sizeof(ch[0])); fail[Size]=0; return Size; } void insert(char *s,int id){ int l=strlen(s); int u=0; for(int i=0;i<l;i++){ int idx=s[i]-'a'; if(!ch[u][idx]) ch[u][idx]=newnode(); u=ch[u][idx]; num[u]++; } val[id]=u; } void Getfail(){ while(!q.empty()) q.pop(); for(int i=0;i<26;i++){ if(ch[0][i]) q.push(ch[0][i]); } while(!q.empty()){ int cur=q.front();q.pop(); Q[++tot]=cur; for(int i=0;i<26;i++){ if(ch[cur][i]){ fail[ch[cur][i]]=ch[fail[cur]][i]; q.push(ch[cur][i]); }else{ ch[cur][i]=ch[fail[cur]][i]; } } } } }ac; int main(){ cin>>n; ac.init(); for(int i=1;i<=n;i++){ scanf("%s",s); ac.insert(s,i); } ac.Getfail(); for(int i=tot;i>=1;i--) num[ac.fail[Q[i]]]+=num[Q[i]]; for(int i=1;i<=n;i++){ printf("%d ",num[ac.val[i]]); } return 0; }