zoukankan      html  css  js  c++  java
  • 串的模式匹配算法(求子串位置的定位函数Index(S,T,pos))


    串的模式匹配的一般方法如算法4.5(在bo4-1.cpp 中)所示:由主串S 的第pos 个字
    符起,检验是否存在子串T。首先令i 等于
    pos(i 为S 中当前待比较字符的位序),j 等于
    1(j 为T 中当前待比较字符的位序),如果S 的
    第i 个字符与T 的第j 个字符相同,则i、j 各
    加1 继续比较,直至T 的最后一个字符(找
    到)。如果还没到T 的最后一个字符,比较就
    出现了不同(没找到),则令i 等于pos+1,j 等
    于1,由pos 的下一个位置起,继续查找是否
    存在子串T。这个过程如图410 所示。

    在算法4.5 中,主串S 的指针i 总要回溯,特别是在如图410 所示的有较多字符匹
    配而又不完全匹配的情况下,回溯得更多。这时,主串S 的一个字符要进行多次比较,显
    然效率较低。
    如果能使主串S 的指针i 不回溯,在有些情况下效率则会大为提高。这是可以做到
    的,因为主串S 中位于i-1,i-2,⋯ 的字符恰和子串T 中位于j-1,j-2,⋯ 的字符相
    等,如图410 所示。仍以图410 为例,当S 和T 在第i(终值)个字符处字符不相符
    时,i 仍保持在终值处不动,j 回溯到第1 个字符与i 的当前字符继续进行比较。j 回溯到第
    几个字符是由子串T 的模式决定的。算法4.7 根据子串T 生成的next 数组指示j 回溯到第
    几个字符。next 数组的意义是这样的:如果next[j]=k,当子串T 的第j 个字符与主串S 的
    第i 个字符“失配”时,S 的第i 个字符继续与T 的第k 个字符进行比较,T 的第k 个字符
    之前的那些字符均与S 的第i 个字符之前的字符匹配。以教科书中图4.5 为例,设子串T
    为“abaabcac”。当T 的第5 个字符与S 的第i 个字符失配时,S 的第i-1 个字符一定是a,
    和T 的第4 个字符相等。它和T 的第1 个字
    符相等。这样,S 的第i 个字符和T 的第2 个
    字符开始比较即可。所以, 对于模式串
    “abaabcac”,next[5]=2,详见图411。
    算法4.7 求子串的数组next[]还有可改
    进之处。以图411 为例:如果T 的第5 个
    字符与S 的第i 个字符失配,则S 的第i 个字
    符一定不是b。这样,尽管S 的第i-1 个字符

    是a,和T 的第1 个字符相等,但S 的第i 个字符肯定和T 的第2 个字符b 不相等。所以
    可令next[5]=1,使S 的第i 个字符和T 的第1 个字符开始比较。这样使得模式串又向右
    移了一位,提高了匹配的效率。算法4.8 是改进的求数组next[](在算法4.8 中的形参是
    nextval[])的算法。
    算法4.6 是改进的模式匹配算法。它利用算法4.7 或算法4.8 求得的数组next[],提
    高了算法的效率。algo4-1.cpp 是实现改进的模式匹配算法的程序。函数get_next()和
    get_nextval()分别求得给定的模式串的数组next[]和nextval[],函数Index_KMP()利用数
    组next[]或nextval[]求出模式串在主串中的位置。其中,next[j]=0,并不是将主串的当前
    字符与模式串的第0 个字符进行比较(模式串也没有第0 个字符),而是主串当前字符的下
    一个字符与模式串的第1 个字符进行比较。


    // algo4-1.cpp 实现算法4.6、4.7、4.8的程序
    #include"c1.h"
    #include"c4-1.h"
    #include"bo4-1.cpp"
    void get_next(SString T,int next[])
    { // 求模式串T的next函数值并存入数组next。算法4.7
    	int i=1,j=0;
    	next[1]=0;
    	while(i<T[0])
    		if(j==0||T[i]==T[j])
    		{
    			++i;
    			++j;
    			next[i]=j;
    		}
    		else
    			j=next[j];
    }
    void get_nextval(SString T,int nextval[])
    { // 求模式串T的next函数修正值并存入数组nextval。算法4.8
    	int i=1,j=0;
    	nextval[1]=0;
    	while(i<T[0])
    		if(j==0||T[i]==T[j])
    		{
    			++i;
    			++j;
    			if(T[i]!=T[j])
    				nextval[i]=j;
    			else
    				nextval[i]=nextval[j];
    		}
    		else
    			j=nextval[j];
    }
    int Index_KMP(SString S,SString T,int pos,int next[])
    { // 利用模式串T的next函数求T在主串S中第pos个字符之后的位置的KMP算法。
    	// 其中,T非空,1≤pos≤StrLength(S)。算法4.6
    	int i=pos,j=1;
    	while(i<=S[0]&&j<=T[0])
    		if(j==0||S[i]==T[j]) // 继续比较后继字符
    		{
    			++i;
    			++j;
    		}
    		else // 模式串向右移动
    			j=next[j];
    		if(j>T[0]) // 匹配成功
    			return i-T[0];
    		else
    			return 0;
    }
    void main()
    {
    	int i,*p;
    	SString s1,s2; // 以教科书算法4.8之上的数据为例
    	StrAssign(s1,"aaabaaaab");
    	printf("主串为");
    	StrPrint(s1);
    	StrAssign(s2,"aaaab");
    	printf("子串为");
    	StrPrint(s2);
    	p=(int*)malloc((StrLength(s2)+1)*sizeof(int)); // 生成s2的next数组空间
    	get_next(s2,p); // 利用算法4.7,求得next数组,存于p中
    	printf("子串的next数组为");
    	for(i=1;i<=StrLength(s2);i++)
    		printf("%d ",*(p+i));
    	printf("
    ");
    	i=Index_KMP(s1,s2,1,p); // 利用算法4.6求得串s2在s1中首次匹配的位置i
    	if(i)
    		printf("主串和子串在第%d个字符处首次匹配
    ",i);
    	else
    		printf("主串和子串匹配不成功
    ");
    	get_nextval(s2,p); // 利用算法4.8,求得next数组,存于p中
    	printf("子串的nextval数组为");
    	for(i=1;i<=StrLength(s2);i++)
    		printf("%d ",*(p+i));
    	printf("
    ");
    	printf("主串和子串在第%d个字符处首次匹配
    ",Index_KMP(s1,s2,1,p));
    }

    代码的运行结果如下:

    /*
    主串为aaabaaaab
    子串为aaaab
    子串的next数组为0 1 2 3 4
    主串和子串在第5个字符处首次匹配
    子串的nextval数组为0 0 0 0 4
    主串和子串在第5个字符处首次匹配
    Press any key to continue
    */



  • 相关阅读:
    systemctld 启动理解
    公私钥(证书)理解
    布隆过滤器
    python linux下dbg
    iOS基础尺寸图
    metadataObjectTypes 详解
    pkg_config_path 环境变量设置 教程
    Cloning failed using an ssh key for authentication, enter your GitHub credentials to access private 解决方案
    docker php安装GD扩展
    mysql 隔离级别
  • 原文地址:https://www.cnblogs.com/KongkOngL/p/3945954.html
Copyright © 2011-2022 走看看