题意:给定两个字符串S和T。请计算两个字符串最长的公共字符串子串的长度。
分析:考虑问题的简化版,计算一个字符串中至少出现两次的最长子串。答案一定会在后缀数组中相邻两个后缀的公共前缀之中,所以只要考虑它们就好了。我们可以合并两个字符串,利用一个字符隔开,然后通过求高度数组,然后把问题求解出来。
#include <iostream>
#include <cstdio>
#include <cstring>
#include <string>
#include <algorithm>
using namespace std;
const int N = 1e4 + 10;
int n, k;
//以i位置开始,长度为k的子串在所有长度为k的子串中字典序大小
int rk[N], sa[N], lcp[N];
int tmp[N];
//这里利用了k,因此k必须在外部定义
bool compare_sa(int i, int j)
{
if (rk[i] != rk[j]) return rk[i] < rk[j];
else
{
int ri = i + k <= n ? rk[i + k] : -1;
int rj = j + k <= n ? rk[j + k] : -1;
return ri < rj;
}
}
void construct_sa(string s, int* sa)
{
n = s.length();
for (int i = 0; i <= n; ++i)
{
sa[i] = i;
rk[i] = i < n ? s[i] : -1;
}
//利用长度为k的结果对长度为2k的排序
for (int k = 1; k <= n; k *= 2)
{
sort(sa, sa + n + 1, compare_sa);
tmp[sa[0]] = 0;
for (int i = 1; i <= n; ++i)
tmp[sa[i]] = tmp[sa[i - 1]] + (compare_sa(sa[i - 1], sa[i]) ? 1 : 0);
for (int i = 0; i <= n; ++i)
rk[i] = tmp[i];
}
}
void construct_lcp(string s, int* sa, int* lcp) {
int n = s.length();
for (int i = 0; i <= n; ++i) rk[sa[i]] = i;
int h = 0;
lcp[0] = 0;
for (int i = 0; i < n; ++i)
{
int j = sa[rk[i] - 1];
if (h > 0) --h;
for (; j + h < n && i + h < n; ++h)
{
if (s[j + h] != s[i + h]) break;
}
lcp[rk[i] - 1] = h;
}
}
int main()
{
int T;
cin >> T;
string s, t;
getline(cin, s);
while (T--)
{
getline(cin, s);
getline(cin, t);
n = s.size() + t.size() + 1;
int sl = s.length();
s = s + ' ' + t;
construct_sa(s, sa);
construct_lcp(s, sa, lcp);
int res = 0;
for (int i = 0; i < n; ++i)
{
if ((sa[i] < sl) != (sa[i + 1] < sl))
{
res = max(res, lcp[i]);
}
}
printf("Nejdelsi spolecny retezec ma delku %d.
", res);
}
return 0;
}