Count-Min Sketch 算法

zoukankan html css js c++ java

Count-Min Sketch 算法
本文转自：https://zhuanlan.zhihu.com/p/84688298

1. Count-Min Sketch

Count-Min Sketch 是数据库中用到的一种 Sketch，所谓 sketch 就是用很少的一点数据来描述全体数据的特性，牺牲了准确性但是代价变得很低。

CM-Sketch 的数据模型是这样的：

有一个维度为n 、不断变化的向量（t 表示时间戳）

$oldsymbol{a}(t)=left[a_{1}(t), ldots a_{i}(t), ldots a_{n}(t) ight]$

每个时间 t上会发生一个更新操作，将其中某一个值加上 c，其他值不变

$egin{array}{l}{a_{i_{t}}(t)=a_{i_{t}}(t-1)+c_{t}} \ {a_{i^{prime}}(t)=a_{i^{prime}}(t-1) quad i^{prime} eq i_{t}}end{array}$

尽管论文还讨论了一些更 general 的情形，我们这里可以简单地理解为，CM-Sketch 要拟合的的数据模型类似一个哈希表加上计数器：假设有一个数据集合里有 n 个 distinct values，a_i表示编号为 i 的值出现的次数，每次更新都在修改这个计数器。

CM-Sketch 作为一个 sketch，目的是用相对小的代价，实现以下几种查询（近似结果）：
- $Q(i)$ 查询编号为 i 的元素出现的次数（主要功能）
- $Q(l,r)$ 查询编号在 $[l, r]$ 范围内的元素出现的总次数 $sum_{i=l}^{r} a_{i}$
- $Q(oldsymbol{a},oldsymbol{b})$ 查询 inner product： $oldsymbol{a} odot oldsymbol{b}=sum_{i=1}^{n} a_{i} b_{i}$
- $phi$ -Quantiles
- Heavy Hitters
2. 实现

CM-Sketch 的内部数据结构是一个二维数组 count，宽度 w，深度 d，此外还需要 d 个两两独立的哈希函数 h₁...h_d。

更新的时候，用这些哈希函数算出 d 个不同的哈希值，然后把对应的行的值加上 c。

这里的取值是有讲究的：

　　　 $w=leftlceilfrac{e}{varepsilon} ight ceil$ ， $d=leftlceilln frac{1}{delta} ight ceil$ ，两个参数的含义是：在 $1-delta$ 的概率下，总误差（所有元素查询误差的之和）小于 $varepsilon$ 。

3. 结果近似性

这里以 Q(i) 为例，它的近似结果是：

$min _{j} operatorname{count}left[j, h_{j}(i) ight]$

也就是所有哈希到的 count 取最小值。显然真实值一定比这个值更小或者相同，那我们只要证明这个值不会比真实值大太多。

要证的结论：

$ext {with probability at least } 1 - delta ext{, } hat{a}_{i} leq a_{i}+varepsilon|oldsymbol{a}|_{1}$

证明如下：

1) 定义指示变量 $I_{i, j, k}$ 表示哈希函数 $h_j$ 对于元素 $i$ 和 $k$ 是冲突的：他们俩被哈希到同一个 slot 上。站在元素 $i$ 的角度上看，由于 $h_j$ 哈希碰撞，导致元素 $k$ 的计数加到自己的计数上了。

$mathrm{E}left(I_{i, j, k} ight)=operatorname{Pr}left[h_{j}(i)=h_{j}(k) ight] leq 1 / operatorname{range}left(h_{j} ight)=frac{varepsilon}{e}$

2) 定义随机变量 $X_{i, j}$ ，表示所有元素的 $I_{i, j, k}$ 的加和。它表示：哈希函数 $h_i$ 未知的情况下，所有元素的总误差。

$mathrm{E}left(X_{i, j} ight)=mathrm{E}left(sum_{k=1}^{n} I_{i, j, k} a_{k} ight) leq sum_{k=1}^{n} a_{k} mathrm{E}left(I_{i, j, k} ight) leq frac{varepsilon}{e}|oldsymbol{a}|_{1}$

3) 运用马尔可夫不等式，把期望的 bound 转换成概率的 bound

$egin{aligned} operatorname{Pr}left[hat{a}_{i}>a_{i}+varepsilon|a|_{1} ight] &=operatorname{Pr}left[forall_{j} cdot operatorname{count}left[j, h_{j}(i) ight]>a_{i}+varepsilon|oldsymbol{a}|_{1} ight] \ &=operatorname{Pr}left[forall_{j} cdot a_{i}+X_{i, j}>a_{i}+varepsilon|oldsymbol{a}|_{1} ight] \ &=operatorname{Pr}left[forall_{j}, X_{i, j}>e mathrm{E}left(X_{i, j} ight) ight]<e^{-d} leq delta end{aligned}$

这也解释了我们之前看到的 d 和 w 的取值是哪来的。
查看全文

相关阅读:
快排原理讲解
 Kafka原理详解
 java中的基本数据类型转换
 centos7关闭防火墙
 安装Linux基本工具
 Kibana笔记
 虚拟机配置net模式
 2019-10-12,html+php+mysql简单留言板，作业
 2019-10-11：渗透测试，基础学习，php+mysql连接，笔记
 2019-10-10：渗透测试，基础学习,mysql语法基础，笔记

原文地址：https://www.cnblogs.com/songwenlong/p/14212194.html

Count-Min Sketch 算法

1. Count-Min Sketch

2. 实现

3. 结果近似性