zoukankan html css js c++ java

字符串匹配

BF算法(朴素模式匹配)

时间复杂度O(m*n)，普通的模式匹配算法
BF算法的思想就是将目标串S的第一个字符与模式串T的第一个字符进行匹配，若相等，则继续比较S的第二个字符和 T的第二个字符；
若不相等，则比较S的第二个字符和T的第一个字符，依次比较下去，直到得出最后的匹配结果。BF算法是一种蛮力算法。

模板

输出s2在s1里出现的次数
我写的，两行获取两行字符，第二行的字符串在第一行的字符串匹配,看看有几个

#include <iostream>
#include <cstdio>
#include <cstring>
using namespace std;
const int maxn = 1e6 + 5;
int main(){
    char str[maxn];
    gets(str);

    char s[maxn];
    gets(s);

    int len1 = strlen(str);
    int len2 = strlen(s);

    int cnt = 0;
    for(int i = 0; i < len1; i++){
        if(str[i] == s[0]){
            int flag = 1;
            for(int j = 0; j < len2; j++){
                if(str[i + j] == s[j]){
                }else{
                    flag = 0;
                    break;
                }
            }

            if(flag)cnt++;
        }
    }
    printf("%d
",cnt);

    return 0;
}

匹配成功，继续，匹配失败回溯

输出第一次匹配的下标

#include <iostream>
#include <string.h>
using namespace std;
int BF(char a[], char b[]){
    int index = 0;//第一个字符串的下标
    int i = 0;//第一个字符串目前下标
    int j = 0;//第二个字符串目前下标
    int len1 = strlen(a);
    int len2 = strlen(b);
    while(i != len1 && j != len2){
        if(a[i] == b[j]){
            i++;
            j++;
        }else{
            index++;
            i = index;
            j = 0;
        }
    }
    if(j == len2) return index + 1;//匹配成功
    else return 0;
}
int main(){
    char a[200];
    cout << "请输入主串:";
    cin >> a;
    char b[200];
    cout << "请输入子串:";
    cin >> b;
    cout << "子串在主串首次匹配的位置是:" << BF(a,b) << endl;
    return 0;
}

kmp算法

时间复杂度O(m+n)

对于朴素算法的一个缺点就是每次子串匹配失败就会回溯，所以kmp针对这个问题，使得主串不需要回溯，只对子串进行回溯
而next就解决了这个问题，如果说主串和子串进行匹配，而在主串i与子串j位置失配，那么i前面和j前面那一段必定是匹配的，那么也就是说，可以采用回溯子串使得子串中与其前面具有相同结构部分进行回溯

前缀：指的是字符串的子串中从原串最前面开始的子串，如abcdef的前缀有：a,ab,abc,abcd,abcde
后缀：指的是字符串的子串中在原串结尾处结尾的子串，如abcdef的后缀有：f,ef,def,cdef,bcdef
注意，前缀与后缀均不包含本身

kmp算法最大的特点是加入了next[i]数组

next[i]的含义是对于字符串去掉下标为i的字符后的字符串的前缀与后缀的最长匹配

这是普遍的定义

求解next

动图next求解

下面是基于清华数据结构教材的定义去求~~我绝对不是为了考试才这么去解释的~~也就是字符串下标以0位开头的
比如求ababa的next值

i	字符	去掉i之后的字符	前缀	后缀	next
0	a	null	null	null	-1
1	ab	a	null	null	0
2	aba	ab	a	b	0
3	abab	aba	ab	ba	1
4	ababa	abab	aba	bab	2

考研题库里面求出来的值是该方法求出的值加1，因为初始下标的定义不同，next[i]是进行匹配的，所以如果字符串从1开始，那就把next值加1，而字符串从0开始，就按照上面去求即可

void getnext(){
    int i = 0,j = -1;
    Next[0]=-1;
    while(i < len2){
        if(j == -1||t[i] == t[j]){
            i++;
            j++;
            Next[i]=j;
        }else{
            j = Next[j];
        }
    }
}

主要i和j的起始位置即可，本文都是以下标0开始

优化kmp

当子串重复个数很多的时候，子串的回溯很浪费时间，所以加入了新的优化
比如aaaaaaaa进行匹配时，当最后一个a匹配失败，就会一个一个地向前回溯，很浪费时间，如果最后一个a的next直接指到第一个a就好了
那么在求next时加一个判断

if(T[i] == T[j])next[i] = next[j];

void getnext(){
    int i = 0,j = -1;
    Next[0]=-1;
    while(i < len2){
        if(j == -1||t[i] == t[j]){
            i++;
            j++;
            if(t[i]!=t[j])Next[i]=j;
            else Next[i] = Next[j];
        }else{
            j = Next[j];
        }
    }
}

如何手动求
只要在求得next[]之后，再遍历一下，看t[i]和t[next[i]]是否相同，相同的话就把t[i]的next改了,next[i] = next[next[i]];

kmp

主要在于j的回溯

int kmp(){
    int i = 0,j = 0;
    while(i < len1 && j < len2){
        if(j == -1||s1[i] == s2[j]){
            i++;
            j++;
        }else j = Next[j];
    }
    return i - len2;
}

模板

传送门
输出匹配的首字母下标和next[]数组

#include <iostream>
#include <cstdio>
#include <cstring>
using namespace std;
char a[1000005];
char b[1000005];
int Next[1000005];
int len1, len2;
void getnext(){
    int p = 0;//p是下标
    Next[1] = 0;
    for(int i = 2; i <= len2; i++){
        while(p && b[i] != b[p + 1]){
            p = Next[p];
        }
        if(b[p + 1] == b[i])p++;
        Next[i] = p;
    }
}
void kmp(){
    int p = 0;
    for(int i = 1; i <= len1; i++){
        while(p && b[p + 1] != a[i])p = Next[p];
        if(b[p + 1] == a[i])p++;
        if(p == len2){
            printf("%d
", i - len2 + 1);
            p = Next[p];//改成p=0的话是不重复
        }
    }
    for(int i = 1; i <= len2; i++)
        printf("%d ",Next[i]);
}
int main(){
    scanf("%s", a + 1);
    scanf("%s", b + 1);
    len1 = strlen(a + 1);
    len2 = strlen(b + 1);
    getnext();
    kmp();

    return 0;
}

另一种写法

#include <cstdio>
#include <iostream>
#include <cstring>
#include <algorithm>
#include <vector>
const int maxn = 1e6+5;
using namespace std;
int Next[maxn];
char s[maxn];
char t[maxn];
int len1, len2;
void kmp(){
    int i = 0,j = 0;
    while(i < len1){
        if(j == -1||s[i] == t[j]){
            i++;
            j++;
        }else{
            j = Next[j];
        }
        if(j == len2){
            printf("%d
",i - len2 + 1);
            j = Next[j];
        }
    }
}
void getnext(){
    int i = 0,j = -1;
    Next[0] = -1;
    while(i < len2){
        if(j == -1 || t[i] == t[j]){
            i++;
            j++;
            Next[i] = j;
        }else{
            j = Next[j];
        }
    }
}
void print(){
    for(int i = 1; i <= len2; i++){
        printf("%d ", Next[i]);
    }
}
int main(){
    scanf("%s", s);
    scanf("%s", t);
    len1 = strlen(s);
    len2 = strlen(t);
    getnext();
    kmp();
    print();
    return 0;
}

例题

要求匹配不重复，输出匹配的个数

传送门

#include <iostream>
#include <cstdio>
#include <cstring>
using namespace std;
char a[1000005];
char b[1000005];
int Next[1000005];
int len1, len2;
int cnt;
void getnext(){
    int p = 0;
    Next[1] = 0;
    for(int i = 2; i <= len2; i++){
        while(p && b[i] != b[p+1]){
            p = Next[p];
        }
        if(b[p + 1] == b[i])p++;
        Next[i] = p;
    }
}
void kmp(){
    int p = 0;
    for(int i = 1; i <= len1; i++){
        while(p && b[p + 1] != a[i])p = Next[p];
        if(b[p + 1] == a[i])p++;
        if(p == len2){
            cnt++;
            p = 0;//达到不重复的目的
        }
    }
}
int main(){
    while(1){
        cnt = 0;
        scanf("%s", a + 1);
        if(strcmp(a + 1, "#") == 0)break;
        scanf("%s", b + 1);
        len1 = strlen(a + 1);
        len2 = strlen(b + 1);
        getnext();
        kmp();
        printf("%d
", cnt);
    }
    return 0;
}

输出匹配的第一个位置

传送门

#include <iostream>
#include <cstdio>
#include <cstring>
using namespace std;
int a[1000005];
int b[1000005];
int Next[1000005];
int len1, len2;
int cnt;
int flag = -1;
void getnext(){
    int p = 0;
    Next[1] = 0;
    for(int i = 2; i <= len2; i++){
        while(p && b[i] != b[p + 1]){
            p = Next[p];
        }
        if(b[p + 1] == b[i])p++;
        Next[i] = p;
    }
}
void kmp(){
    int p = 0;
    for(int i = 1; i <= len1; i++){
        while(p && b[p + 1] != a[i])p = Next[p];
        if(b[p + 1] == a[i])p++;
        if(p == len2){
            flag = i - len2 + 1;
            p = Next[p];//
            return;
        }
    }
}
int main(){
    int t;
    cin >> t;
    while(t--){
        flag = -1;
        int n, m;
        scanf("%d%d", &n, &m);
        for(int i = 1; i <= n; i++){
            scanf("%d", &a[i]);
        }
        for(int j = 1; j <= m; j++){
            scanf("%d", &b[j]);
        }
        len1 = n;
        len2 = m;

        getnext();
        kmp();
        printf("%d
", flag == -1 ? -1 : flag);
    }
    return 0;
}

查看全文

相关阅读:
爱情十二课，失恋后遗症
 爱情十三课，爱人的五功能
 爱情第八课，爱也是投资
 爱情第二课，择爱两大误区
 爱情十七课，吵架的原则
 MFC DC的获取
 MFC关于使用CArchive流输入产生的问题
 MFCCFileException类学习笔记
 MFC中指针的获取
 文字编辑和文字处理

原文地址：https://www.cnblogs.com/Emcikem/p/11331323.html