最大公共子串长度问题就是:
求两个串的所有子串中能够匹配上的最大长度是多少。
比如:"abcdkkk" 和 "baabcdadabc",
可以找到的最长的公共子串是"abcd",所以最大公共子串长度为4。
下面的程序是采用矩阵法进行求解的,这对串的规模不大的情况还是比较有效的解法。
请分析该解法的思路,并补全划线部分缺失的代码。
#include <stdio.h> #include <string.h> #define N 256 int f(const char* s1, const char* s2) { int a[N][N]; int len1 = strlen(s1); int len2 = strlen(s2); int i,j; memset(a,0,sizeof(int)*N*N); int max = 0; for(i=1; i<=len1; i++){ for(j=1; j<=len2; j++){ if(s1[i-1]==s2[j-1]) { a[i][j] = __________________________; //填空 if(a[i][j] > max) max = a[i][j]; } } } return max; } int main() { printf("%d ", f("abcdkkk", "baabcdadabc")); return 0; }注意:只提交缺少的代码,不要提交已有的代码和符号。也不要提交说明性文字。
【分析】DP
这里使用动态规划法求解串s1和s2的最大公共子串长度,a[i][j]表示串s1的前i个字符组成的串和串s2的前j个字符组成的串的最大公共子串的长度。
s1中的子串s1[0]..s1[i]匹配s2中的子串s2[0]..s2[j],在s1[0]..s1[i-1]和s2[0]..s2[j-1]已经匹配的情况下匹配长度+1,即a[i][j]=a[i-1][j-1]+1,此方程是在s1[i]和s2[j]匹配的情况下才成立的 即s1[i]==s2[j];
而题目代码中给出的判断条件是if(s1[i-1]==s2[j-1]),这是因为对于一个字符串s1来说,它的子串必定"含于"s1[0]..s1[len1-1],而a数组的下标是从1开始的,这样做的好处是不需要进行数组边界处理。试想一下,如果a数组和串s1 s2下标都从0开始,a[0][0]表示s1[0]和s2[0]匹配的情况,则在s1[0]==s2[0]的情况下必然有a[0][0]=a[0-1][0-1]+1(越界!)。解决办法即是进行数组边界处理:
if(s1[i]==s2[j]) {
if(i==0||j==0) a[i][j]=1;
else a[i][j]=a[i-1][j-1]+1;
}
此外,我们对于动态规划求最优解应该有一个概念:最优解不一定要在状态中表示出来。例如在这里,我们只需要把所有子串匹配长度求出来,然后去更新最大长度就可以了。这里的状态并不是当前情况下的最优解。
#include <stdio.h> #include <string.h> #define N 256 int f(const char* s1, const char* s2) { int a[N][N]; int len1 = strlen(s1); int len2 = strlen(s2); int i,j; memset(a,0,sizeof(int)*N*N);//将矩阵用0填满 int max = 0; for(i=1; i<=len1; i++){ for(j=1; j<=len2; j++){ if(s1[i-1]==s2[j-1]) { a[i][j] = a[i-1][j-1]+1; //填空 if(a[i][j] > max) max = a[i][j]; } } } return max; } int main() { printf("%d ", f("abcdkkk", "baabcdadabc")); return 0; }