嘟嘟嘟
今天学了一个后缀数组,还是挺好理解的。
因为我不会基数排序,所以只会(O(n log ^ 2 n))的sort版。
首先,后缀数组就是把该字符串的所有后缀按字典序排序得到的一个数组。注意这个排序只有字典序一个关键字,跟长度无关。
比如ababa的后缀数组就是:5 3 1 4 2,对应的后缀为a, aba, ababa, ba, baba。
怎么求呢?
特别好理解。
就像st表一样倍增的求。
令(s[i][k])表示以(i)为起点,长度为(2 ^ k)的子串(如果(i + 2 ^ k > n),则表示从(i)开始的后缀)。(rank_k[i])表示他是第几小的。
那么如果要比较(s[i][k + 1])和(s[j][k + 1]),只需比较(s[i][k], s[i + 2 ^ k][k])和(s[j][k], s[j + 2 ^ k][k])的排名。换句话说,这一次的排序。就是以(rank[s[i][k]])为第一关键字,(rank[s[i + 2 ^ k][k]])为第二关键字进行排序。
排完序后,再(O(n))扫一遍更新(rank)数组。
分治每一层为(O(n log n)),一共(log n)层,所以总复杂度为(O(n log ^ 2 n))。
#include<cstdio>
#include<iostream>
#include<cmath>
#include<algorithm>
#include<cstring>
#include<cstdlib>
#include<cctype>
#include<vector>
#include<stack>
#include<queue>
using namespace std;
#define enter puts("")
#define space putchar(' ')
#define Mem(a, x) memset(a, x, sizeof(a))
#define In inline
typedef long long ll;
typedef double db;
const int INF = 0x3f3f3f3f;
const db eps = 1e-8;
const int maxn = 1e6 + 5;
inline ll read()
{
ll ans = 0;
char ch = getchar(), last = ' ';
while(!isdigit(ch)) last = ch, ch = getchar();
while(isdigit(ch)) ans = (ans << 1) + (ans << 3) + ch - '0', ch = getchar();
if(last == '-') ans = -ans;
return ans;
}
inline void write(ll x)
{
if(x < 0) x = -x, putchar('-');
if(x >= 10) write(x / 10);
putchar(x % 10 + '0');
}
int n, k;
char s[maxn];
int sa[maxn], rnk[maxn], tp[maxn];
In bool cmp(int i, int j)
{
if(rnk[i] != rnk[j]) return rnk[i] < rnk[j];
int x = i + k <= n ? rnk[i + k] : -1;
int y = j + k <= n ? rnk[j + k] : -1;
return x < y;
}
int main()
{
scanf("%s", s + 1);
n = strlen(s + 1);
for(int i = 1; i <= n; ++i) sa[i] = i, rnk[i] = s[i];
//刚开始的rank可以直接用ASCII码
for(k = 1; k <= n; k <<= 1)
{
sort(sa + 1, sa + n + 1, cmp);
for(int i = 1; i <= n; ++i)
tp[sa[i]] = tp[sa[i - 1]] + (cmp(sa[i - 1], sa[i]) ? 1 : 0);
for(int i = 1; i <= n; ++i) rnk[i] = tp[i];
}
for(int i = 1; i <= n; ++i) write(sa[i]), space; enter;
return 0;
}