zoukankan      html  css  js  c++  java
  • AC自动机

    Aho-Corasick automaton是一种用于多模板串匹配文本串的算法。是KMP算法与Trie树的结合。

    来看一个经典的例子,要求在一段文字中找到给定单词列表中的所有单词,你会怎么办?可以对每个单词跑一遍KMP,但是复杂度极高。比较好的做法是用AC自动机。

    AC自动机可以认为是将多个模板串建成Trie树,然后利用KMP的“失配指针”思想,去匹配文本串。

    根据上面说的,AC自动机有3个主要环节。一、建Trie树。这和建普通的Trie树基本没有区别。二、得到每个非根结点的失配指针。先将所有的fail指针初始化为指向根结点。对于根结点的孩子,让其fail指针指向根结点即可。除此之外,每个结点的fail指针由其父亲的fail指针得到,即fail[ch[u][i]]=ch[fail[u]][i];但是,如果其父亲的fail指针指向的结点没有和当前结点代表字符一样的孩子,又该怎么办呢?可以从一开始就让那些指向不存在的孩子的指针去指向该结点的fail指针指向结点的对应孩子。相当于简化了过程,你发现接下来“无路可走”了,那么就去到最近的“有路可走”处,最多也就回到根结点。三、匹配文本串。我们按照文本串,在Trie树上走,每走到一个结点,都会再去不断沿着fail指针到根结点,将途中遇到的匹配统计下来。比如,匹配到了she,那么同时也匹配到了he。

     1 struct AC_automaton {
     2     int ch[maxn][maxc],fail[maxn],cnt[maxn],num;
     3     //与Trie树相比只是多了fail数组
     4     AC_automaton() {
     5         memset(ch,-1,sizeof(ch)); //ch全部初始化为-1
     6         memset(fail,0,sizeof(fail));
     7         memset(cnt,0,sizeof(cnt));
     8         num=0;
     9     }
    10     void insert(char* s) {
    11         int u=0;
    12         for(int i=0;s[i];++i) {
    13             if(ch[u][s[i]-'a']==-1) ch[u][s[i]-'a']=++num;
    14             u=ch[u][s[i]-'a'];
    15         }
    16         ++cnt[u]; //插入和Trie树基本相同
    17     }
    18     void build() { //建立失配指针
    19         queue<int> q; //BFS
    20         for(int i=0;i<maxc;++i) { //根节点特殊处理
    21             if(ch[0][i]==-1) ch[0][i]=0;
    22             else q.push(ch[0][i]);
    23         }
    24         while(!q.empty()) {
    25             int u=q.front();q.pop();
    26             for(int i=0;i<maxc;++i) {
    27                 if(ch[u][i]==-1) ch[u][i]=ch[fail[u]][i]; //没有这个孩子,则可以让其向上找
    28                 else {
    29                     fail[ch[u][i]]=ch[fail[u]][i]; //孩子的失配指针由父亲得到
    30                     q.push(ch[u][i]);
    31                 }
    32             }
    33         }
    34     }
    35     int count(char* s) { //统计文本串中出现过多少次模板串(可重复)
    36         int u=0,ans=0;
    37         for(int i=0;s[i];++i) {
    38             u=ch[u][s[i]-'a'];
    39             int tmp=u;
    40             while(tmp) { //不断向上找
    41                 ans+=cnt[tmp];
    42                 // cnt[tmp]=0;
    43                 //加上这一句代表在文本串中出现过多少个模板串(不重复)
    44                 tmp=fail[tmp];
    45             }
    46         }
    47         return ans;
    48     }
    49 };
  • 相关阅读:
    position之属性
    Grid网格布局
    position 属性指定了元素的定位类型
    注册表单
    简单页面
    自我介绍
    正则表达式
    Dom和Bom
    颜色和单位
    伪类和伪元素的区别
  • 原文地址:https://www.cnblogs.com/Mr94Kevin/p/9664993.html
Copyright © 2011-2022 走看看