zoukankan      html  css  js  c++  java
  • Aho-Corasick 多模式匹配算法、AC自动机详解

    Aho-Corasick算法是多模式匹配中的经典算法,目前在实际应用中较多。

    Aho-Corasick算法对应的数据结构是Aho-Corasick自动机,简称AC自动机。

    搞编程的一般都应该知道自动机FA吧,具体细分为:确定性有限状态自动机(DFA)和非确定性有限状态自动机NFA。普通的自动机不能进行多模式匹配,AC自动机增加了失败转移,转移到已经输入成功的文本的后缀,来实现。

    1.多模式匹配

      多模式匹配就是有多个模式串P1,P2,P3...,Pm,求出所有这些模式串在连续文本T1....n中的所有可能出现的位置。

      例如:求出模式集合{"nihao","hao","hs","hsr"}在给定文本"sdmfhsgnshejfgnihaofhsrnihao"中所有可能出现的位置

    2.Aho-Corasick算法  

      使用Aho-Corasick算法需要三步:

      1.建立模式的Trie

      2.给Trie添加失败路径

      3.根据AC自动机,搜索待处理的文本

      下面说明这三步:

    2.1建立多模式集合的Trie

      Trie树也是一种自动机。对于多模式集合{"say","she","shr","he","her"},对应的Trie树如下,其中红色标记的圈是表示为接收态:

      

    2.2为多模式集合的Trie树添加失败路径,建立AC自动机

      构造失败指针的过程概括起来就一句话:设这个节点上的字母为C,沿着他父亲的失败指针走,直到走到一个节点,他的儿子中也有字母为C的节点。然后把当前节点的失败指针指向那个字母也为C的儿子。如果一直走到了root都没找到,那就把失败指针指向root。

      使用广度优先搜索BFS,层次遍历节点来处理,每一个节点的失败路径。  

      特殊处理:第二层要特殊处理,将这层中的节点的失败路径直接指向父节点(也就是根节点)

     

    2.3根据AC自动机,搜索待处理的文本

      从root节点开始,每次根据读入的字符沿着自动机向下移动。

      当读入的字符,在分支中不存在时,递归走失败路径。如果走失败路径走到了root节点,则跳过该字符,处理下一个字符。

      因为AC自动机是沿着输入文本的最长后缀移动的,所以在读取完所有输入文本后,最后递归走失败路径,直到到达根节点,这样可以检测出所有的模式。

    3.Aho-Corasick算法代码示例

      模式串集合:{"nihao","hao","hs","hsr"}

      待匹配文本:"sdmfhsgnshejfgnihaofhsrnihao"

      代码:

      1 #include<iostream>
      2 #include<string.h>
      3 #include<malloc.h>
      4 #include <queue>
      5 using namespace std;
      6 
      7 typedef struct node{
      8     struct node *next[26];  //接收的态
      9     struct node *par;   //父亲节点
     10     struct node *fail;  //失败节点
     11     char inputchar;
     12     int patterTag;    //是否为可接收态
     13     int patterNo;   //接收态对应的可接受模式
     14 }*Tree,TreeNode;
     15 char pattern[4][30]={"nihao","hao","hs","hsr"};
     16 
     17 /**
     18 申请新的节点,并进行初始化
     19 */
     20 TreeNode *getNewNode()
     21 {
     22     int i;
     23     TreeNode* tnode=(TreeNode*)malloc(sizeof(TreeNode));
     24     tnode->fail=NULL;
     25     tnode->par=NULL;
     26     tnode->patterTag=0;
     27     for(i=0;i<26;i++)
     28         tnode->next[i]=NULL;
     29     return tnode;
     30 }
     31 
     32 /**
     33 将Trie树中,root节点的分支节点,放入队列
     34 */
     35 int  nodeToQueue(Tree root,queue<Tree> &myqueue)
     36 {
     37     int i;
     38     for (i = 0; i < 26; i++)
     39     {
     40         if (root->next[i]!=NULL)
     41             myqueue.push(root->next[i]);
     42     }
     43     return 0;
     44 }
     45 
     46 /**
     47 建立trie树
     48 */
     49 Tree buildingTree()
     50 {
     51     int i,j;
     52     Tree root=getNewNode();
     53     Tree tmp1=NULL,tmp2=NULL;
     54     for(i=0;i<4;i++)
     55     {
     56         tmp1=root;
     57         for(j=0;j<strlen(pattern[i]);j++)   ///对每个模式进行处理
     58         {
     59             if(tmp1->next[pattern[i][j]-'a']==NULL) ///是否已经有分支,Trie共用节点
     60             {
     61                 tmp2=getNewNode();
     62                 tmp2->inputchar=pattern[i][j];
     63                 tmp2->par=tmp1;
     64                 tmp1->next[pattern[i][j]-'a']=tmp2;
     65                 tmp1=tmp2;
     66             }
     67             else
     68                 tmp1=tmp1->next[pattern[i][j]-'a'];
     69         }
     70         tmp1->patterTag=1;
     71         tmp1->patterNo=i;
     72     }
     73     return root;
     74 }
     75 
     76 /**
     77 建立失败指针
     78 */
     79 int buildingFailPath(Tree root)
     80 {
     81     int i;
     82     char inputchar;
     83     queue<Tree> myqueue;
     84     root->fail=root;
     85     for(i=0;i<26;i++)   ///对root下面的第二层进行特殊处理
     86     {
     87         if (root->next[i]!=NULL)
     88         {
     89             nodeToQueue(root->next[i],myqueue);
     90             root->next[i]->fail=root;
     91         }
     92     }
     93 
     94     Tree tmp=NULL,par=NULL;
     95     while(!myqueue.empty())
     96     {
     97         tmp=myqueue.front();
     98         myqueue.pop();
     99         nodeToQueue(tmp,myqueue);
    100 
    101         inputchar=tmp->inputchar;
    102         par=tmp->par;
    103 
    104         while(true)
    105         {
    106             if(par->fail->next[inputchar-'a']!=NULL)
    107             {
    108                 tmp->fail=par->fail->next[inputchar-'a'];
    109                 break;
    110             }
    111             else
    112             {
    113                 if(par->fail==root)
    114                 {
    115                     tmp->fail=root;
    116                     break;
    117                 }
    118                 else
    119                     par=par->fail->par;
    120             }
    121         }
    122     }
    123     return 0;
    124 }
    125 
    126 /**
    127 进行多模式搜索,即搜寻AC自动机
    128 */
    129 int searchAC(Tree root,char* str,int len)
    130 {
    131     TreeNode *tmp=root;
    132     int i=0;
    133     while(i < len)
    134     {
    135         int pos=str[i]-'a';
    136         if (tmp->next[pos]!=NULL)
    137         {
    138             tmp=tmp->next[pos];
    139             if(tmp->patterTag==1)    ///如果为接收态
    140             {
    141                 cout<<i-strlen(pattern[tmp->patterNo])+1<<'	'<<tmp->patterNo<<'	'<<pattern[tmp->patterNo]<<endl;
    142             }
    143             i++;
    144         }
    145         else
    146         {
    147             if(tmp==root)
    148                 i++;
    149             else
    150             {
    151                 tmp=tmp->fail;
    152                 if(tmp->patterTag==1)    //如果为接收态
    153                     cout<<i-strlen(pattern[tmp->patterNo])+1<<'	'<<tmp->patterNo<<'	'<<pattern[tmp->patterNo]<<endl;
    154             }
    155         }
    156     }
    157     while(tmp!=root)
    158     {
    159         tmp=tmp->fail;
    160         if(tmp->patterTag==1)
    161             cout<<i-strlen(pattern[tmp->patterNo])+1<<'	'<<tmp->patterNo<<'	'<<pattern[tmp->patterNo]<<endl;
    162     }
    163     return 0;
    164 }
    165 
    166 /**
    167 释放内存,DFS
    168 */
    169 int destory(Tree tree)
    170 {
    171     if(tree==NULL)
    172         return 0;
    173     queue<Tree> myqueue;
    174     TreeNode *tmp=NULL;
    175 
    176     myqueue.push(tree);
    177     tree=NULL;
    178     while(!myqueue.empty())
    179     {
    180         tmp=myqueue.front();
    181         myqueue.pop();
    182 
    183         for (int i = 0; i < 26; i++)
    184         {
    185             if(tmp->next[i]!=NULL)
    186                 myqueue.push(tmp->next[i]);
    187         }
    188         free(tmp);
    189     }
    190     return 0;
    191 }
    192 
    193 int main()
    194 {
    195     char a[]="sdmfhsgnshejfgnihaofhsrnihao";
    196     Tree root=buildingTree();   ///建立Trie树
    197     buildingFailPath(root); ///添加失败转移
    198     cout<<"待匹配字符串:"<<a<<endl;
    199     cout<<"模式"<<pattern[0]<<" "<<pattern[1]<<" "<<pattern[2]<<" "<<pattern[3]<<" "<<endl<<endl;
    200     cout<<"匹配结果如下:"<<endl<<"位置	"<<"编号	"<<"模式"<<endl;
    201     searchAC(root,a,strlen(a)); ///搜索
    202     destory(root);  ///释放动态申请内存
    203     return 0;
    204 }
    View Code

      输出:

      

     

     

    (上面的两个图,参考网页:http://www.cppblog.com/mythit/archive/2009/04/21/80633.html

  • 相关阅读:
    TCP的发送系列 — 发送缓存的管理(二)
    TCP的发送系列 — 发送缓存的管理(一)
    TCP的发送系列 — tcp_sendmsg()的实现(二)
    TCP的发送系列 — tcp_sendmsg()的实现(一)
    YTU 2618: B 求类中数据成员的最大值-类模板
    YTU 2617: B C++时间类的运算符重载
    YTU 2616: A代码完善--简易二元运算
    YTU 2615: AB编程题--世界杯小组赛
    YTU 2614: A代码完善--系统日期
    YTU 2611: A代码完善--向量的运算
  • 原文地址:https://www.cnblogs.com/xudong-bupt/p/3433506.html
Copyright © 2011-2022 走看看