zoukankan      html  css  js  c++  java
  • 后缀自动机总结

    后缀自动机总结

    鉴于我觉得也没有人会看我这份总结学SAM,所以这里索性就只放一个板子了。
    核心代码在这里:

    const int N = 2e5+5;
    int n,tr[N][26],fa[N],len[N],last=1,tot=1;
    void extend(int c)
    {
    	int v=last,u=++tot;last=u;
    	len[u]=len[v]+1;
    	while (v&&!tr[v][c]) tr[v][c]=u,v=fa[v];
    	if (!v) fa[u]=1;
    	else{
    		int x=tr[v][c];
    		if (len[x]==len[v]+1) fa[u]=x;
    		else{
    			int y=++tot;
    			memcpy(tr[y],tr[x],sizeof(tr[y]));
    			fa[y]=fa[x];fa[x]=fa[u]=y;len[y]=len[v]+1;
    			while (v&&tr[v][c]==x) tr[v][c]=y,v=fa[v];
    		}
    	}
    }
    

    几个需要注意的地方:
    1、(N)的大小要开两倍。
    2、(last,tot)的初值是(1)
    3、在字符集比较大的时候(tr)转移可以开(map),空间复杂度更优秀尽管加那么一点点常数。
    4、一个状态的(endpos)集合大小就是沿(fa)建树后的子树大小。建树的过程往往可以用基数排序代替:

    for (int i=1;i<=tot;++i) ++t[len[i]];
    for (int i=1;i<=tot;++i) t[i]+=t[i-1];
    for (int i=1;i<=tot;++i) a[t[len[i]]--]=i;
    for (int i=tot;i;--i) sz[fa[a[i]]]+=sz[a[i]];
    

    5、一个状态的(longest)就是(len)(shortest)则是(fa.len+1)。所以串中一共有多少个不同子串的答案就是(sum_{i=1}^{tot} len[i]-len[fa[i]])

    广义后缀自动机

    这玩意儿可以用来实现多个样本串的匹配。
    讲的厉害一点:后缀自动机的(endpos)集合是基于原序列(原字符串就是一个一维的序列嘛),而广义后缀自动机的(endpos)集合则是基于(Trie)树上的节点。
    讲的好厉害的样子,其实板子还是一样的,就是从哪里开始插入就把(last)的值赋到哪里。
    比如说多个串的插入:

    for (int i=1;i<=n;++i)
    {
    	scanf("%s",s+1);
    	last=1;
    	for (int j=1,l=strlen(s+1);j<=l;++j) extend(s[j]-'a');
    }
    

    其他的就以后再补吧。。。

  • 相关阅读:
    网化商城
    ITU R-REC-S 系列建议书分类
    UDLua
    libev简单使用
    Windows 审计日志 安全部分不刷新的解决办法
    sys.version_info
    mitmproxy 安装
    Python3 os.remove() 方法
    Python3 os.rename() 方法
    python3 unittest
  • 原文地址:https://www.cnblogs.com/zhoushuyu/p/8660117.html
Copyright © 2011-2022 走看看