百度文库 : https://wenku.baidu.com/view/b7d3d1c6804d2b160a4ec090.html
求一个字符串的hash值:
假设我们取p=13 ,mod=101
先把abc映射为一个整数
hash[0]=1,表示 a 映射为1
hash[1]=(hash[0]*p+idx(b))%mod=15,表示 ab 映射为 15
hash[2]=(hash[1]*p+idx(c))%mod=97
这样,我们就把 abc 映射为 97 这个数字了。
hash值呢?
unsigned long long hash[N];
定义一个unsigned long long类型的变量,它的范围是在[0, 2^64) 内,这就相当于,当数超不过2^64-1后,它会溢出!这就相当于一个数模2^64的过程。
那么hash函数可以理解为:
hash[i]=(hash[i-1]*p)%(2^64)
P取一个大素数,一般习惯取1e9+7或1e9+9
安全指数:三星(所以并不是很安全)
这个之前已经提到过了。
hash[i]=(hash[i-1]*p+idx(s[i]))%mod
hash1[i]=(hash1[i-1]*p+idx(s[i]))%mod1
hash2[i]=(hash2[i-1]*p+idx(s[i]))%mod2
pair<hash1,hash2>表示一个字符串!
解释:
hash1[i]=(hash1[i-1]*p+idx(s[i]))%mod1
hash2[i]=(hash2[i-1]*p+idx(s[i]))%mod2
mod1一般取1e9+7,mod2一般取1e9+9为什么这么取?
1000000007和1000000009是一对孪生素数,取它们,冲突的概率极低!
但请注意,hash的维度越高,耗时越高,耗内存越大!一般情况下,single hash可以被hack掉,但double hash极难被hack掉, 用double hash足以解决问题
根据hash函数去求得一段区间的的 hash 值
#include <cstdio>
#include <cstring>
using namespace std;
#define ll unsigned long long
const ll maxn = 1e6+5;
char s1[maxn], s2[maxn];
ll p = 100007;
ll hash[maxn];
ll pp[maxn];
void init() {
pp[0] = 1;
for(int i = 1; i <= 1000; i++) {
pp[i] = pp[i-1]*p;
}
}
int main() {
scanf("%s%s", s1, s2);
ll len1 = strlen(s1);
ll len2 = strlen(s2);
init();
ll hash_1 = 0;
for(ll i = 0; i < len1; i++){
hash_1 = hash_1*p+(s1[i]-'a');
}
printf("hash_1 = %llu
",hash_1);
for(ll i = 0; i < len2; i++){
hash[i] = hash[i-1]*p+(s2[i]-'a');
printf("+++ i = %llu -> %llu
", i, hash[i]);
}
ll ans = hash[5]-hash[2]*pp[3];
printf("%llu
", ans);
return 0;
}
/*
qwe
rasqwe
*/