zoukankan      html  css  js  c++  java
  • AC自动机详解 (P3808 模板)

    AC自动机笔记

    0.0 前言

    哇,好久之前就看了 KMP 和 Trie 树,但是似乎一直没看懂 AC自动机??
    今天灵光一闪,加上之前看到一些博客和视频,瞬间秒懂啊... 其实这个玩意还是蛮好理解的...

    在这里先给一个样例,之后也都好举例子.

    模式串:
    5
    FG
    HE
    HERS
    HIS
    SHE

    匹配串:HISHERS

    1.1 深度理解 KMP

    KMP 算法的精华部分即其处理的 Next 数组.
    Next 数组所存的数值即代表j之前的字符串中有最大长度为k 的相同前后缀.
    记录这个有什么用呢?
    对于ABCDABC这个串,如果我们匹配ABCDABTBCDABC这个长串,当匹配到第7个字符T的时候就不匹配了,我们就不用直接移到B开始再比一次,而是直接移到第5位来比较,岂不美哉?
    Next 数组存的是最长的相同的串长度,再从第一个开始匹配明显是不需要的,我的最长公共前后缀的位置即为第一个可能匹配成功的位置.
    所以其正确性很明显,而 KMP 其中的失配匹配思想 (姑且让我这么说说罢) 是 AC自动机中很重要的一环.

    1.2 利用 Trie 树

    关于AC自动机中的 Trie 树,其实其最大做用就是用来存储给出的字典.
    Trie 树在处理很多查找问题时都会有不错的效用.01 Trie 树也是处理异或问题的一大利器.
    利用 Trie 树,我们对上文中的例子就可以构建出一张图:
    (先不要管点上的数字,度娘的图...虚线后面会用到)

    2.0 Trie 树上的 KMP

    以上二者即为 AC自动机 的前置技能.
    我们需要建立一棵 Trie 树,用于存储其给出的字典.
    同时我们需要利用 KMP 其中的失配匹配思想,用以优化时间复杂度.

    2.1 Fail 指针


    概念

    AC 自动机中的 Fail 指针,其实就相当于 KMP 中的 Next 数组.
    我们先看看 Fail 是怎么跳的.
    然后再一次搬出上文那张图:

    此时我们便可以对图中的虚线作出解释了.
    每个点所对应虚线指向的地方,即为这个点的 Fail 指针.

    Fail 指针指向的地方是与 从Trie 树起点到这个点 公共前后缀最长的地方.
    同时要求这个前后缀不能与其等长(否则不就是自己么?).
    比如说 90 这个节点, 从起点到这个点所形成的串即为 S H.
    然后我们找到另外一个与其公共前后缀最长的点,就是 74 了.
    此时它们的公共前后缀即为 H.
    又如 S H EH E 这两个位置.

    匹配过程

    然后此时我们看一下怎么匹配所给出的匹配串.

    H I S H E R S

    先匹配 H 然后走进 74 这个节点.
    继续匹配 I 然后走进 80 这个节点.
    继续匹配 S 然后发现这里有一个单词,于是统计答案.

    统计到 S 后,我们下一个看往的方向即为它的 Fail -- 85.
    因为它们有公共前后缀 S.

    然后发现 85 的后一个正好即为 H,然后我们与之匹配.
    再匹配 90和91. 然后我在 91 统计答案.

    因为后面已经无路可走,于是我们跳到 91 的 Fail,即为 76.
    它们有公共前后缀 H E.

    然后我们继续跑到 86 ,此时需要被匹配的串已经走完了,我们整个过程结束.

    2.2 Fail 的寻找

    可以看出,当我们 Fail 找完之后,整个 AC 自动机的工作其实已经完成了一大半.那么我们如何处理出 Fail 指针呢?
    我们用广搜实现.

    首先对于根节点的子节点,因为只有一个字母,所以不可能有其余的子串与其有公共前后缀,所以直接会根节点.

    然后对于接下来的 Fail ,我们把它直接赋为它爸爸的Fail 子节点中与其字母相等的子节点. 上一小段代码:

      for(int i=0;i<26;i++)
            if(ch[u][i])
                {
                    f[ch[u][i]]=ch[f[u]][i];
                    q.push(ch[u][i]);
                }
    

    2.3 Code

    /*
    Problem : AC自动机
    Time : Day -94
    */
    #include<bits/stdc++.h>
    #define maxn 1000008
    using namespace std;
    
    struct AC_machine
    {
        int ch[maxn][26];
        int num[maxn],f[maxn];
        // f即为fail指针.
        int tot;
        void insert(string s)
        {
            int u=0,len=s.length();
            for(int i=0;i<len;i++)
            {
                if(!ch[u][s[i]-'a'])
                    ch[u][s[i]-'a']=++tot;
                u=ch[u][s[i]-'a'];
            }
            num[u]++;
        } //往Trie树里插入元素.
        void build()
        {
            queue<int> q;
            for(int i=0;i<26;i++)
            {
                if(ch[0][i])
                f[ch[0][i]]=0,
                //第一层与其他单词不可能有公共前后缀,fail直接为根.
                q.push(ch[0][i]);
            }
            while(q.empty()!=1)
            {
                int u=q.front(); q.pop();
                for(int i=0;i<26;i++)
                if(ch[u][i])
                {
                    f[ch[u][i]]=ch[f[u]][i];
                    q.push(ch[u][i]);
                    //画图理解贼容易.
                }
                else ch[u][i]=ch[f[u]][i];
                //这一步直接省略了查询时的比较.
            }
        } //构建Fail指针.
        int query(string s) 
        {
        	int u=0,len=s.length(),ans = 0;
        	for(int i=0;i<len;i++)
        	{
            	u=ch[u][s[i]-'a'];
            	for(int j=u;j&&num[j]!=-1;j=f[j]) 
            	//就用这个循环实现跳的过程.
            	ans+=num[j],num[j]=-1;
            	//因为直接已经在每个单词的最后面打了标记,所以直接加上即可.
        	}
        return ans;
        }
    }AC;
    int n;string s;
    int main()
    {
        cin>>n;
        for(int i=1;i<=n;i++)
        {
            cin>>s;
            AC.insert(s);
        }
        AC.build();
        cin>>s;
        cout<<AC.query(s)<<endl;
    }
    


    几个常用的优化

    1.类路径压缩(构建 Fail 时优化)
    详见以下代码:

    if(ch[u][i])
                {
                    f[ch[u][i]]=ch[f[u]][i];
                    q.push(ch[u][i]);
                }
                else ch[u][i]=ch[f[u]][i];
    

    此步操作使得在比较时省去了 While 循环.
    如果没有匹配,直接进入 Fail 的匹配之中.
    (参考刘汝佳《算法竞赛入门经典训练指南》P216).


    2.后缀链接
    这里我们需要多加一个 last 数组.
    同样见代码:

    • 构建 Fail 部分
    if(ch[u][i])
                {
                    f[ch[u][i]]=ch[f[u]][i];
                    q.push(ch[u][i]);
                    last[u]=num[f[u]]?f[u]:last[f[p]]
                }
                else ch[u][i]=ch[f[u]][i];
    
    • 匹配查询过程
    for(int i=0;i<len;i++)
        	{
            	u=ch[u][s[i]-'a'];
            	for(int j=u;j&&num[j]!=-1;j=last[j]) 
            	ans+=num[j],num[j]=-1;
        	}
    

    此处我们的 last 大概可以理解为一个 超级 Fail.
    因为我们只有到根节点时才会重新匹配一个字母
    所以我们此时直接记录一个last ,直接结束当前匹配过程.
    直接省去原 Fail 指针到可以匹配的节点之间的距离.
    同时结合上文类路径压缩,在匹配时可以完全不使用原 Fail.


    3.树形DP优化
    此处树形DP优化的是查询部分.
    首先我们可以发现, Fail 指针是绝对满足树形结构的.
    显而易见,每个点的 Fail 都仅指向一个一个节点.
    然后具体做的过程我似乎还没学懂...
    不过也可以理解为构建一个 超级 Fail,优化的部分与 2 差不多.

    小结

    AC自动机算法的精华在于Fail 所体现的失配匹配思想.
    在 KMP 中也都有体现,在不同的题目中,也应巧妙运用这一性质.









    参考(讲的都比我好QwQ):

  • 相关阅读:
    rabbitmq在centos7下安装
    跨域问题
    11生成器相关及推导式(附内置函数分析图url)
    10函数名的应用,闭包,和迭代器
    09函数的动态传参及global和nonlocal关键字
    08函数简介
    07基本的文件操作
    06set集合和深浅拷贝(包括前面的一些知识点补充)
    05判断和编码/解码
    04基本数据类型(字典)
  • 原文地址:https://www.cnblogs.com/Kv-Stalin/p/9443622.html
Copyright © 2011-2022 走看看