(KMP)算法是一种改进的字符串匹配算法,由(D.E.Knuth),(J.H.Morris)和(V.R.Pratt)同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称(KMP)算法)。(KMP)算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个(next)函数,函数本身包含了模式串的局部匹配信息。时间复杂度(O(m+n))。
求(next)数组
(next)是(C++11)的关键字,为了养成良好习惯,接下来写作(nxt)。
(nxt)数组在模式串(就是准备在另一个串里找出它位置的串)上求,(nxt_i)表示模式串([1,i])中最长的长度不等于(i)的相等的前缀和后缀的长度。
比如(aaaaa)的(nxt_5)就是(4),(abcabc)的(nxt_2)是(1),(nxt_6)是(3)。特别的,(nxt_1=0)
模式串的(nxt)数组怎么求呢?首先假设我们已经求出了([1,i-1])的(nxt)。那么(nxt_i)就可以由之前的(nxt)的到。
(1)、令(j)等于(nxt_{i-1})
(2)、判断(s[j+1])是否等于(s[i]),如果相等那么(nxt_i=nxt_{i-1}+1),否则我们就令(j=nxt_j),继续判断。
3、时间复杂度分析:由于我们每次(nxt)数组顶多会被上一个多(1),那么总的增加量就是(O(n))的,在(j=nxt_j)这个步骤中,总的减少量显然也是不会超过(O(n))的。所以求(nxt)数组的时间复杂度是(O(n))的。
模式串匹配
首先我们来看看最暴力的写法。
for(int i=1;i<=n-m+1;i++) {
bool bo=1;
for(int j=1;j<=m;j++)
if(s[i+j-1]!=c[j]) {
bo=0;break;
}
if(bo) {printf("%d
",i);break;}
}
(s)是母串,(c)是模式串,这段代码会找到模式串在母串中出现的第一个位置。
由于每次匹配失败之后,到母串的下一个位置都会从头开始扫描模式串,所以这个复杂度是(O(nm))的。
但是假如我们求出了模式串的(nxt)数组之后,我们可以记录模式串目前与母串匹配到哪一位来了,如果失配就跳(nxt),因为([1,nxt_i])肯定和([1,i])最后(nxt_i)位相同,所以我们可以直接从(nxt_i)开始重新匹配。由于匹配成功增加的量最多是(O(n))的,减少的量也不会超过(O(n)),所以匹配的复杂度就是(O(n))的。
模板题:https://www.luogu.org/problemnew/show/P3375
时间复杂度:(O(n+m))
空间复杂度:(O(m))
代码如下:
#include <cstdio>
#include <cstring>
using namespace std;
const int maxn=1e6+5;
int n,m;
int nxt[maxn];
char s1[maxn],s2[maxn];
void make_nxt() {
for(int i=2,j=0;i<=m;i++) {
while(j&&s2[j+1]!=s2[i])j=nxt[j];
if(s2[j+1]==s2[i])j++;nxt[i]=j;
}
}
int main() {
scanf("%s%s",s1+1,s2+1);
n=strlen(s1+1),m=strlen(s2+1);
make_nxt();
for(int j=0,i=1;i<=n;i++) {
while(j&&s2[j+1]!=s1[i])j=nxt[j];
if(s2[j+1]==s1[i])j++;
if(j==m) {printf("%d
",i-j+1);j=nxt[j];}
}
for(int i=1;i<=m;i++)
printf("%d ",nxt[i]);
return 0;
}