zoukankan      html  css  js  c++  java
  • KMP

     KMP 匹配算法是由 "Knuth  Morris  Pratt"  提出的一种快速的模式匹配算法。  
       hint:不为自身的最大首尾重复子串长度

       1.待解决的问题:假设P为给定的子串,T是待查找的字符串,要求从T中找出与P相同的所有子串,这称为模式匹配问题。 (可以给出子串在T中的位置) (下文中提到的P和T分别为子串和目标串)

       让我们先来看个例题:

       T:   t0      t1     t2      t3 .... tm-1 ... tn-1

       P:   p0      p1     p2      p3 .....pm-1         

                                                   

       从T的最左边开始比较,使得 TK = PK,则匹配成功。

       2.解决模式匹配问题的方案:

       A:朴素的模式匹配算法(思路简单,但不够简便,时间长,有回溯):最简单和最直接的做法,用P中的字符依次与T中的字符进行比较,遇到不相等的字符,则可将P右移一个字符,重新进行比较,直到某次匹配成功或者到达P的最右字符移出T为止。

       如:若P="aaaba", T="aaabbaaaba", 则匹配过程如下图

        T:     a   a   a   b   b   a   a   a   b  a

        P:     a   a   a   b   a                                                                

                   a   a   a   b   a                

                                       .....

                                   a   a   a   b  a           

       从上不难分析,最坏的情况是“每次比较都在最后一个字符出现不等,每趟最多比较M次,最多比较N-M+1趟,总的比较次数最多为M*(N-M+1)” ,时间复杂性为0(M*N)。 在P右移一位时,不管上一趟比较的中间结果是什么,因此回溯是不可避免的(如:前3个aaa 不需要一位一位的移 ) 。下面我来介绍无回溯的KMP算法。

       3.KMP算法解决匹配中哪些主要问题:

       A.当字符串比较出现不等时,确定下一趟比较前,应该将P右移多少个字符; 

       B. P右移后,应该从哪个字符开始和T中刚才比较时不等的那个字符继续开始比较。

        我们通过朴素模式匹配的例子来引出问题。在第一次比较过程中失败的是P的第4个字符b,这表明P的前4个字符是成功的。模式P的第3个字符b在它的前3个字符(aaa)中并未出现。因此,在下一次比较时候,至少要将P向后移4个字符;再看P的第一个字符与最后一个字符是相同的,因此将P右移4个字符后,再从第一个字符比较,肯定也是不等的。综上所诉:应该将P右移5个字符,再从P的第0个字符和T的第5个字符开始比较!

       KMP算法核心:KMP算法借助于一个辅助数组next来确定当匹配过程中出现不等时,模式P右移的位置和开始比较的位置。next[i]的取值只与模式P本身的前i+1项有关,而与目标T无关。匹配过程中遇到Pi不等于Tj时,若next[i]>=0,则应将P右移i-next[i]位个字符,用P中的第next[i]个字符与Tj 进行比较;若:next[i]= -1,P中的任何字符都不必再与Tj比较,而应将P右移i+1个字符,从P0和Tj+1从新开始下一轮比较(可能不太好理解,自己找个例子,对着话一句一句试试看)

       因此只要计算出与模式P相关的next数组,按上面的含义,就可以很容易地给出串的匹配算法。(问题就这样转化了)

        C.next的计算:以P = " 01001010100001"为例。

         i   :            0   1   2   3   4   5   6    ..... 

         P   :            0   1   0   0   1   0   1    .....

        j(next[i]) :     -1   0   0   1   1   2   3    .....

       如1:我们要算next[2]的值,有关的为P本身的前2个字符0,1。在字符串01中,寻找出“左右相同的最大字符串,此字符串所含字符的个数就为next[i]的值”而0不等于1,相同字符串不存在,所以next[i] = 0;

       如2:我们要算next[6]的值,有关的为P本身前6个字符010010 。此字符串中010 = 010左右相同的最大字符串为010,个数为3。所以next[i]=3;

       如3:我们要算next[5]的值,有关的为P本身前5个字符01001。此字符串中 01=01 左右相同的最大字符串为01,个数为2。所以next[i]=2;

    #include<stdio.h>
    #include<string.h>
    #include<stdlib.h>
    FILE *fin=fopen("test.in","r");
    FILE *fout=fopen("test.out","w");
    char s1[200],s2[200];
    int next[200];

    int max(int a,int b)
    {
        if(a>b) return a;
        return b;
    }

    void getnext()
    {
        memset(next,0,sizeof(next));
        int i=-1,j=0;
        next[0]=-1;
        while(j<strlen(s2))
        {
               if(i==-1||s2[i]==s2[j]){
                   i++;  j++;  
                   next[j]=i;
               }
               else i=next[i];
        }
    }

    int KMP()
    {
        int i=0,j=0,len1=strlen(s1),len2=strlen(s2);
        while((i<len1)&&(j<len2))
        {
            if(j==-1||s1[i]==s2[j]) {j++;i++;}
            else j=next[j];
        }
        if(j==len2) return i-len2;
        else return -1;
    }

    int index_KMP()
    {
        int i=0,j=0,len1=strlen(s1),len2=strlen(s2),re=0;
        while(i<len1&&j<len2)
        {
                             if(j==-1||s1[i]==s2[j]) {i++;j++;}
                             else j=next[j];
                             re=max(re,j);
        }
        return re;
    }

    int main()
    {
        fscanf(fin,"%s",s1);
        for(int i=1;i<=3;i++)
        {
                fscanf(fin,"%s",s2);
                getnext();
                fprintf(fout,"%d %d ",KMP(),index_KMP());
        }
        return 0;
    }
     
     
     
     

     因此KMP算法的关键在于求算next[]数组的值,即求算模式串每个位置处的最长后缀与前缀相同的长度, 而求算next[]数组的值有两种思路,第一种思路是用递推的思想去求算,还有一种就是直接去求解。 

    1.按照递推的思想:

       根据定义next[0]=-1,假设next[j]=k, 即P[0...k-1]==P[j-k,j-1]

       1)若P[j]==P[k],则有P[0..k]==P[j-k,j],很显然,next[j+1]=next[j]+1=k+1;

       2)若P[j]!=P[k],则可以把其看做模式匹配的问题,即匹配失败的时候,k值如何移动,显然k=next[k]。

       因此可以这样去实现:

    void getNext(char *p,int *next)
    {
    int j,k;
    next[0]=-1;
    j=0;
    k=-1;
    while(j<strlen(p)-1)
    {
    if(k==-1||p[j]==p[k]) //匹配的情况下,p[j]==p[k]
    {
    j++;
    k++;
    next[j]=k;
    }
    else //p[j]!=p[k]
    k=next[k];
    }
    }

    2.直接求解

    void getNext(char *p,int *next)
    {
    int i,j,temp;
    for(i=0;i<strlen(p);i++)
    {
    if(i==0)
    {
    next[i]=-1; //next[0]=-1
    }
    else if(i==1)
    {
    next[i]=0; //next[1]=0
    }
    else
    {
    temp=i-1;
    for(j=temp;j>0;j--)
    {
    if(equals(p,i,j))
    {
    next[i]=j; //找到最大的k值
    break;
    }
    }
    if(j==0)
    next[i]=0;
    }
    }
    }

    bool equals(char *p,int i,int j) //判断p[0...j-1]与p[i-j...i-1]是否相等
    {
    int k=0;
    int s=i-j;
    for(;k<=j-1&&s<=i-1;k++,s++)
    {
    if(p[k]!=p[s])
    return false;
    }
    return true;
    }

  • 相关阅读:
    No result defined for action
    敏捷管理视频
    如何预测一个互联网产品的未来:一套关于产品的数学模型
    ZooKeeper 笔记(3) 实战应用之【统一配置管理】
    mybatis migrate常用指令
    dubbo远程调试运行
    解决 nginx https反向代理http协议 302重定向localtion到http问题
    nginx设置不使用缓存 add_header Cache-Control no-cache
    openssl数字证书私钥删除私钥密码
    读 Zepto 源码系列
  • 原文地址:https://www.cnblogs.com/ghostTao/p/3850527.html
Copyright © 2011-2022 走看看