原文链接 https://www.cnblogs.com/cly-none/p/9825339.html
题意:给出(n)个长度为(m)的互不相同的01串。有另一个串,初始为空。不断进行如下操作:每次这个串的末尾会等概率加上0或1。当出现(n)个串中的一个成为这个串的子串,操作立刻停止。问每个串停止操作的概率。
(n,m leq 300)
首先,显然可以建出AC自动机,在trie图上每个结点设一个未知数表示如果这个结点是终止结点,那么在它终止的概率,然后用高斯消元求出答案。但这样做复杂度是(O((nm)^3))的,不能通过本题。
考虑简化方程组。由数据范围可知,方程组的未知数数应当是(O(n))的。因此,我们要考虑放弃AC自动机。这意味着放弃不同非终点状态之间的关系,那么我们就需要更简单的对方程未知数的定义。
首先,因为AC自动机上每个串代表的终止结点最多访问一次,所以访问到它的概率就等于访问它的期望次数。于是我们修改方程中未知数的定义,定义为这个结点期望被访问到的次数。
接下来,考虑终止的最终状态,就是(n)个串中的一个作为后缀(设其编号为(i)),前面拼上一段(S)。这个(S)需要满足不能走到终止状态,且加上串(i)的任何长度小于(m)的前缀也不会走到终止状态。
于是就放弃一点性质:让(S)为任何不能走到终止状态的串(包括空串)。那么,强制它后面接上串(i)时(即忽略在途中的终止),那么,就有如下几种可能:
- 恰好走到串(i)的终止状态。并且,由于(S)是任意走不到终止状态的串,因此这能包含所有恰好在串(i)终止的状态。
- 在后面接上(j)个01后,就在途中停止了。假设我们在串(k)处停止。那么,串(k)长度为(j)的前缀就与串(i)长度为(j)的后缀相同。然后,因为能保证串(k)的串长不小于(j),且在(k)串处终止就意味着在之前一定没有终止,所以这包含了所有在(k)处终止的状态。但还要注意后面又强行加上了(m-j)位。
于是就能构建出方程组了。新加一个未知数(x_0)表示非终止状态的期望经过次数。(x_i, \, (i geq 1))就是经过串(i)的终止结点的期望次数。那么,当(S)后强行接上串(i),我们就能得到
这样就有(n)条方程了。第(n+1)条方程是(sum_{k=1}^n x_k = 1)。
话说怎么证明这个矩阵是奇异的啊?求大佬赐教。
于是高斯消元一下就解决了本题。时间复杂度(O(n^2(n+m)))。
#include <bits/stdc++.h>
using namespace std;
const int N = 310, MOD[2] = {(int)(1e9 + 7), (int)(1e9 + 9)}, BAS = 3;
typedef double db;
db mat[N][N],pwi2[N];
int n,m,has[2][N][N],pw[2][N];
char s[N][N];
int gethas(int k,int *has,int l,int r) {
return (has[r] - 1ll * has[l-1] * pw[k][r-l+1] % MOD[k] + MOD[k]) % MOD[k];
}
void guass(int rn) {
for (int i = 1 ; i <= rn ; ++ i) {
int r = i;
for (int j = i + 1 ; j <= rn ; ++ j)
if (fabs(mat[j][i]) > fabs(mat[r][i]))
r = j;
if (r != i)
for (int j = i ; j <= rn + 1 ; ++ j)
swap(mat[i][j],mat[r][j]);
for (int j = i + 1 ; j <= rn ; ++ j) {
for (int k = i + 1 ; k <= rn + 1 ; ++ k)
mat[j][k] -= (mat[j][i] / mat[i][i]) * mat[i][k];
mat[j][i] = 0;
}
}
for (int i = rn ; i >= 1 ; -- i) {
mat[i][rn+1] /= mat[i][i];
for (int j = i - 1 ; j >= 1 ; -- j)
mat[j][rn+1] -= mat[i][rn+1] * mat[j][i];
}
}
int main() {
scanf("%d%d",&n,&m);
for (int i = 1 ; i <= n ; ++ i)
scanf("%s",s[i] + 1);
for (int k = 0 ; k < 2 ; ++ k) {
pw[k][0] = 1;
for (int i = 1 ; i <= m ; ++ i)
pw[k][i] = 1ll * pw[k][i-1] * BAS % MOD[k];
for (int i = 1 ; i <= n ; ++ i) {
has[k][i][0] = 0;
for (int j = 1 ; j <= m ; ++ j)
has[k][i][j] = (1ll * has[k][i][j-1] * BAS + (s[i][j] == 'T')) % MOD[k];
}
}
pwi2[0] = 1.0;
for (int i = 1 ; i <= m ; ++ i)
pwi2[i] = pwi2[i-1] / 2.0;
for (int i = 1 ; i <= n ; ++ i) {
mat[i][n+1] = - pwi2[m];
for (int j = 1 ; j <= m ; ++ j) {
for (int k = 1 ; k <= n ; ++ k) {
if (gethas(0,has[0][k],m-j+1,m) == gethas(0,has[0][i],1,j))
if (gethas(1,has[1][k],m-j+1,m) == gethas(1,has[1][i],1,j)) {
mat[i][k] += pwi2[m - j];
}
}
}
}
for (int i = 1 ; i <= n ; ++ i)
mat[n+1][i] = 1;
mat[n+1][n+2] = 1;
guass(n+1);
for (int i = 1 ; i <= n ; ++ i)
printf("%.8lf
",mat[i][n+2]);
return 0;
}
小结:这个做法放弃了AC自动机,通过对未知数概念的修改和某种情况的讨论,得到了复杂度低且支持串长不相等、字符集较大、每种字符随机概率不相等的解法。可见解决一些问题,还可能要放弃部分常规套路。