zoukankan      html  css  js  c++  java
  • AC自动机

    首先简要介绍一下AC自动机:Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一。一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。要搞懂AC自动机,先得有字典树Trie和KMP模式匹配算法的基础知识。KMP算法是单模式串的字符匹配算法,AC自动机是多模式串的字符匹配算法。



    /*
     *  求目标串中出现了几个模式串
     */
    struct Trie
    {
        int next[500010][26], fail[500010], end[500010];
        int root, L;
        int newnode()
        {
            for (int i = 0; i < 26; i++)
            {
                next[L][i] = -1;
            }
            end[L++] = 0;
            return L - 1;
        }
    
        void init()
        {
            L = 0;
            root = newnode();
        }
    
        void insert(char buf[])
        {
            int len = (int)strlen(buf);
            int now = root;
            for (int i = 0; i < len; i++)
            {
                if (next[now][buf[i] - 'a'] == -1)
                {
                    next[now][buf[i] - 'a'] = newnode();
                }
                now = next[now][buf[i] - 'a'];
            }
            end[now]++;
        }
    
        void build()
        {
            queue<int>Q;
            fail[root] = root;
            for (int i = 0; i < 26; i++)
            {
                if (next[root][i] == -1)
                {
                    next[root][i] = root;
                }
                else
                {
                    fail[next[root][i]] = root;
                    Q.push(next[root][i]);
                }
            }
            while (!Q.empty())
            {
                int now = Q.front();
                Q.pop();
                for (int i = 0;i < 26;i++)
                {
                    if (next[now][i] == -1)
                    {
                        next[now][i] = next[fail[now]][i];
                    }
                    else
                    {
                        fail[next[now][i]]=next[fail[now]][i];
                        Q.push(next[now][i]);
                    }
                }
            }
        }
    
        int query(char buf[])
        {
            int len = (int)strlen(buf);
            int now = root;
            int res = 0;
            for (int i = 0; i < len; i++)
            {
                now = next[now][buf[i] - 'a'];
                int temp = now;
                while (temp != root)
                {
                    res += end[temp];
                    end[temp] = 0;
                    temp = fail[temp];
                }
            }
            return res;
        }
    
        void debug()
        {
            for (int i = 0; i < L; i++)
            {
                printf("id = %3d,fail = %3d,end = %3d,chi = [", i, fail[i], end[i]);
                for (int j = 0; j < 26; j++)
                {
                    printf("%2d", next[i][j]);
                }
                printf("]
    ");
            }
        }
    };
    
    char buf[1000010];
    Trie ac;
    
    int main()
    {
        int T;
        int n;
        scanf("%d", &T);
        while(T--)
        {
            scanf("%d", &n);
            ac.init();
            for (int i = 0; i < n; i++)
            {
                scanf("%s", buf);
                ac.insert(buf);
            }
            ac.build();
            scanf("%s", buf);
            printf("%d
    ", ac.query(buf));
        }
        return 0;
    }














  • 相关阅读:
    Android native CursorWindow数据保存原理
    王立平--EditText实现单行显示,左側图标,提示信息
    Cocos2d-x 3.4 之 消灭星星 &gt; 第三篇(终) &lt;
    关于Segmentation fault错误
    python 2.x 与3.x的区别
    σ 代数与测度(measures)
    中文的表达 —— 句式、段落、结构(逻辑)
    中文的表达 —— 句式、段落、结构(逻辑)
    matlab 快捷键
    matlab 快捷键
  • 原文地址:https://www.cnblogs.com/bryce1010/p/9387079.html
Copyright © 2011-2022 走看看