strStr()函数的用途是在一个字符串S中寻找某个字串P第一次出现的位置。并返回其下标,找不到时返回-1。最简单的办法就是找出S全部的子串和P进行比較,然而这种方法比較低效。假设我们从S的下标0和P的下标0開始对每一个字符进行比較,假设相等则下标添加,比較后面的字符。假设两者一直相等直到P的下标达到最大值。则表示在S中找到了P。而且第一次出现的位置为0,返回0,但假设在中间某个位置两个字符不相等时。这时S的下标要退回到1,P的下标回到0。又一次開始比較。
后来,有三个牛认为这样不爽。于是他们搞了一个KMP算法,并以他们三人名字的最開始字符命名这个算法。
这个算法的优点是在比較中的某个位置,两个串的字符不相等时。不须要S回退,而P的下标回退到某个值。然后继续和S当前失配的字符进行比較。
关键就是在这里了。P的下标要回退,退到哪儿啊?我们举个样例,S为“abcabcabeg”,P为"abcabe",从下标0開始比較,一直到下标5才发现字符不相等,S相应字符为c。P相应字符为e。这时候。我们就考查P中下标5曾经的字符串,即“abcab”。对于这个字符串,S下标5之前也存在相同的串。我们还发现这个串的前缀和后缀都有“ab”,即下标0、1和3、4分别组成的字符串相等,同一时候等于S串中下标3、4组成的字符串。因此。我们仅仅须要把P的下标退到2的位置。然后跟S的下标5相应的字符继续比較就可以,由于P的0、1下标相应字符和S的3、4下标相应的字符相等。假设对于每一个失配的位置,我们都这样对P的下标进行调整,而S的下标继续往前而不后退,效率会提高非常多。
如今最大的问题就是怎么计算P失配时应该退回到的下标值。而从前面的分析中能够看出是对字符串的前后缀相等部分的长度来获取的。这样问题就变成了怎么编写代码来较为高效地计算在失配时P调整到的新下标值。
对于P中每一个位置,我们能够计算出在该位置失配时应该调整到的下标,并存放在一个next数组中,比方上面P在下标为5时失配。调整到的新下标为2。则有next[5]等2。
写到这里,发现好像讲得越来越乱了。还是贴我自己的代码吧。事实上KMP最关键也是不太好理解的地方就是对next数组的理解和计算方法。
void fillNext(char* p, int* next)
{
if(!p) return;
int len = strlen(p);
int i = 1;
int j = 0;
for(int i = 0; i < len; ++i) next[i] = 0;
while(i < len-1)
{
if(p[i] == p[j])
{
i++;
j++;
next[i] = j;
}
else
{
if(j == 0)
{
i++;
next[i] = 0;
}
else j = next[j];
}
}
}
int strStr(char* haystack, char* needle) {
if(!haystack || !needle) return -1;
int len_h = strlen(haystack);
int len_n = strlen(needle);
if(len_n > len_h) return -1;
if(len_n == 0) return 0;
int* next = malloc(sizeof(int)*len_n);
fillNext(needle, next);
int i = 0;
int j = 0;
while(i < len_h)
{
if(haystack[i] == needle[j])
{
j++;
i++;
if(j == len_n)break;
}
else
{
if(j == 0)i++;
else j = next[j];
}
}
free(next);
if(j == len_n)
{
return i - len_n;
}
return -1;
}