KMP模式匹配 - 走看看

zoukankan html css js c++ java

KMP模式匹配
        在开发中常常遇到须要查看一个字符串t是否在字符串s中存在，并找到其第一次出现的位置，也就是在字符串s中查找子串t，我们寻常都是怎么实现那？我们最起码有三个方法能够用。CString和string中的find函数。以及string.h中的strstr函数，用起来既简单又快捷，CString是MFC中的东西，string是C++标准库的东西，strstr是C中string.h中的东西。貌似我们不是必需非要自己实现定位查找功能……可是假设我偏要想自己实现那？我们能不能模仿MFC中的CString或者C++中的string和string.h中的strstr来自己实现一个函数那？以下我们慢慢来找一找，看看能不能实现。

1. 朴素模式匹配

       假如s=”ababcababcac”，t=”abcac”。在s中查找t；我们能够最直接想到的办法就是直接拿t中每个字符和s中的每个字符一一进行比較，例如以下：

从比較过程中我们能够发现每次比較失败后，i和j都会回溯；不停得回溯不停得比較。时间复杂度、为O(mn)；算法十分简单。也非常easy实现。代码例如以下：

int BFMatcher(const char* strMain,const char* strSub) { int n = strlen(strMain); int m = strlen(strSub); int j = 0; int i=0; while ( i<n ) { while( j<m && strSub[j] == strMain[i] ) { if ( j == m-1 ) return i-j; j++; i++; } i = i-j+1;//回溯 j = 0; } return -1; }

2. KMP算法

        依据上面的步骤我们细致看第一步和第二步会发现。我们在第一步中比較s中的a和t中的c失败后。第二步直接从第一步中已经比較的过的s中的b開始与t中的第一位a比較。我们通过第一步已经知道s中的第二个是b。不可能与t中的第一位a相等，这一步比較全然是多余的。咱们实现的上面的简单方法全然没有利用第一次比較过得结果，这叫什么，叫没吸取经验，在第二步比較时我们应该利用第一步的比較结果，假设我们利用了比較结果。全然就能够跳过第二步，明显的节省了时间，第一步和第二步的比較应该为以下这样：

依照这种方法来的话，我们这个比較四步也就成功找到t在s中的位置，避免了i和j的反复回溯。比上面的方法不知道快了多少倍。
但是这个样例看起来简单，但是怎么编程实现那？怎么让它一般化那？我们先来看第二步是怎样到达第三步的：

         第二步比較開始时i为s中第三个字符a的位置，即i=2；t中j=0；当比較到i=7，j=4时不相等了，比較失败，在第三步时我们发现s中起始比較的位置仍然为i=7不变，t中j的位置变成了1，在第二步中我们发现，”abca”成功在s中找到了位置，我们比較s[6]与t发现。s[6]=t[3]，同一时候s[6]=t[0]；所以在第三步中s[6]和t[0]就无需进行比較。我们通过观察”abca”和t[0]t[3]能够发现。t[0]和t[3]各自是”abca”的真前缀和真后缀，t[0]=t[3]。那么是不是说我们仅仅要找到已经在s匹配成功的t中的串t[0…q]中的相等的真前缀和真后缀的长度。我们就能够知道。下次比較t中j的起始位置那？比方刚刚在第二步中得到的”abca”的真前缀的长度为1，那么下次比較j的位置就为1。由此可知，比較失败后，s中的i不用动。仅仅须要获取下一个j即可，而且这个j的仅仅与s没有关系。

         那么我们来总结下，如果s串长度为n，t串长度为m，m<=n，在s中查找t，t[1…q] =s[i+1…i+q] 0<q<m（注:在上面的样例中第二步中,i=2,q=4。这里的t[1…q]表示的是从t[0]到t[q-1]的元素）。且t[1…q+1]!= s[i+1…i+q+1]。而且有t[1…k]=s[i`+1…i`+k]1<k<q i+1 <i`<i+q，当中i`=i+q-k。那么我们后面的匹配測试中就会变得十分的简单。由此可知我们主要求出这个k值就能够了。也就是求出t[1…q]中的最大真前缀的长度即可，这个长度的值就是下一个j的值。

以下的问题就是获取失败后的下一个j，也就是怎么找t[1…q]中的最大真前缀。

        能够看到1<q<m，所以我们须要获取t[1…1]到t[1…m]中全部串的最大的真前缀，所以能够直接把这些最大真前缀的长度提前求出放到一个数组next[]中。以供使用。

有了这个next数组之后就能够写出查找函数例如以下:

int KMP_Matcher(const char* strMain,const char* strSub) { if ( NULL == strMain || NULL == strSub ) return -1; int n = strlen(strMain); int m = strlen(strSub); int next[MAX_STRING_LEN] = {0}; GetNext(strSub,next); int q = 0; for ( int i=0 ; i<n ; i++ ) { while ( q>0 && strSub[q]!=strMain[i] ) q = next[q]; if ( strSub[q] == strMain[i] ) q = q+1; if ( q==m-1 ) return i-q+1; } return -1; }

如今我们就仅仅须要想办法怎么实现这个GetNext函数填充next数组：

            我们能够知道next[1]=0。由于t[1…1]没有真前缀。由此能够考虑用递归的方式来实现对next数组的求解。对于q>1。如果已知next[1],next[2],next[3],next[4]……next[q-1]中全部串的最大真前缀的长度。那么next[q]那？设next[q-1]=k。那么t[1…k]是t[1…q-1]中的最大真前缀。因此我们对t[q]如果两种情况:

1.      t[k+1]=t[q]，那么这就简单了。这样说明串t[1…k]的后一位与t[1…q-1]的后一位是相等的。已知next[q-1]=k，那么next[q]=k+1。

2.      t[k+1]!=t[q]，那么就找t[1…q-1]的第二大真前缀，由于t[1…k]是t[1…q-1]的最大真前缀，所以t[1…k]的最大真前缀就是t[1…q-1]的第二大真前缀。所以此时不相等就是求t[1…k]的最大真前缀，即next[ next[q-1] ] = next[k]；这是就变成了k=next[k]，比較t[next[k]+1]和t[q]。若还不相等，则反复此步骤，直到next[k]=0；j的值回溯到0从头開始匹配。

通过上面两步便可求出next数组。
代码实现例如以下:

void GetNext(const char* str,int* next)//abcac { next[0] = 0; int m = strlen(str); int k = -1; for ( int q=1 ; q<m ; q++ ) { while( k>0 && str[k+1] != str[q] ) k = next[k]; if( str[k+1] == str[q] ) next[q] = ++k; else next[q] = 0; } }
通过上面代码我们能够发现，能够通过对k的初始值调整。得到更加简短的实现，例如以下：

void GetNext(const char* str,int* next) { next[0] = 0; int m = strlen(str); int k = 0; for ( int q= 1; q<m ; q++ ) { while( k>0 && str[k] != str[q] ) k = next[k]; if ( str[k] == str[q] ) k = k+1; next[q] = k; } }

3. KMP时间复杂度计算

       要计算KMP_Matcher的时间复杂度，首先要计算GetNext的时间复杂度，由代码可知，GetNext中的for循环的时间复杂度为m，而for中的while循环那？？能够看到，while循环受k>0限制。k由大于next[k]。也就是说while循环中的操作是以至少1的速度减小k的值，而k的值又是受for中k=k+1限制，k值为零while循环不会做不论什么操作，所以while循环受for循环约束，while循环内减小k值后，若k值不添加。while循环就不会做不论什么操作，所以GetNext的时间复杂度为O(m)。同能够推出KMP_Matcher的时间复杂度为O(m+n)。

终于完整的代码例如以下：

#include <stdio.h> #include <string.h> #define MAX_STRING_LEN 255 void GetNext(const char* str,int* next) { next[0] = 0; int m = strlen(str); int k = 0; for ( int q= 1; q<m ; q++ ) { while( k>0 && str[k] != str[q] ) k = next[k]; if ( str[k] == str[q] ) k = k+1; next[q] = k; } } int KMP_Matcher(const char* strMain,const char* strSub) { if ( NULL == strMain || NULL == strSub ) return -1; int n = strlen(strMain); int m = strlen(strSub); int next[MAX_STRING_LEN] = {0}; GetNext(strSub,next); int q = 0; for ( int i=0 ; i<n ; i++ ) { while ( q>0 && strSub[q]!=strMain[i] ) q = next[q]; if ( strSub[q] == strMain[i] ) q = q+1; if ( q==m-1 ) return i-q+1; } return -1; } int main(int argc, char* argv[]) { int nIndex = KMP_Matcher("aaababcacabcac","abcacab"); printf("nIndex=%d",nIndex); getchar(); return 0; }

參考:《算法与数据结构》傅清祥、王晓东
查看全文

相关阅读:
JSP内置对象
 Angular $scope和$rootScope事件机制之$emit、$broadcast和$on
Ionic开发实战
 Entity Framework 5.0 Code First全面学习
 6个强大的AngularJS扩展应用
 使用npm安装一些包失败了的看过来（npm国内镜像介绍）
自己家里搭建NAS服务器有什么好方案？
自己动手制作CSharp编译器
 使用Visual Studio Code搭建TypeScript开发环境
 Office web app server2013详细的安装和部署

原文地址：https://www.cnblogs.com/cxchanpin/p/7340126.html