布隆过滤器 - 走看看

zoukankan html css js c++ java

布隆过滤器
参考https://juejin.im/post/5de1e37c5188256e8e43adfc

什么是布隆过滤器？

布隆过滤器本质上是一个很长的位数组和一系列哈希函数。位数组元素一开始全是0。往布隆过滤器里放元素时，假如有n个哈希函数，则先用这n个哈希函数处理元素，得到n个数字，然后把数组对应索引处设置为1，比如说1、3、5位置设置成1。元素量大时，难免会发生哈希碰撞，这样后面的1就会覆盖前面的1。布隆过滤器的特性是能够判定某个元素不存在，但不能判定某个元素存在。一个元素，通过哈希函数算出几个数，这些对应索引位置处只要有一个是0，就表示不存在，因为假如存在的话，那些对应索引位置必然都是1。另外，即使那些对应索引位置都是1，也不能判定该元素存在，因为这些索引位置的1可能是存放其他元素时设置的。

布隆过滤器的应用场景。

在很大量很大量的数据集里判定某一个数据不存在。如果接受一定错误率的话，还可以用来判定某一个数据存在。在其他常见方法，比如说放到Set中用contains判断、存到数据库中查询、存到es中查询，这些方法因为数据量太大而不得不放弃时，就可以考虑用布隆过滤器了。

布隆过滤器为什么能支持大量的数据呢？因为它存放的不是这些数据集本身，而是这些根据这些数据集去设置位数组的值，而位数组占用内存空间很小，且位数组的大小在创建布隆过滤器时就指定了，不管存再多数据，都不会再变了。

布隆过滤器的几种实现

1、guava实现

布隆过滤器用BloomFilter表示。

使用示例：
public static void main(String[] args) { int total = 100000000; BloomFilter<CharSequence> bf = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), total, 0.0001); for (int i = 0; i < total; i++) { bf.put("" + i); } // 判断值是否存在过滤器中 int count = 0; for (int i = 0; i < total + 10000; i++) { if (bf.mightContain("" + i)) { count++; } } System.out.println("已匹配数量 " + count); }
调用BloomFilter的create静态方法可以创建布隆过滤器，支持泛型。上例就是原始数据是字符串类型的场景，布隆过滤器可以支持任意类型的数据，除了常见的数字、字符串之外，甚至还支持图片、音视频等等，因为它的泛型可以支持byte[]，而任意类型的数据都可以转成byte[]。创建布隆过滤器时还可以指定错误率，默认是0.03，即3%，这个数字有点大，业务上我们一般要求4个9的正确率，即99.99%，所以可以指定错误率为0.0001，像上例中一样。

2、redis

利用redis实现，需要在redis服务端上安装一个叫做RedisBloom的插件，且要求redis版本在4.0以上，这两个要求比较严苛，实际操作性不强，只有在单机的guava实现不满足业务需求的时候，才考虑用redis实现。本处不详细讲解，知道用redis可以实现就行。
查看全文

相关阅读:
HDU5890:Eighty seven(Bitset优化背包)
AtCoder3857：Median Sum （Bitset优化背包&&对称性求中位数）
POJ3275:Ranking the Cows(Bitset加速floyd求闭包传递)
Gym
POJ2443 Set Operation （基础bitset应用，求交集）
POJ2976：Dropping tests（01分数规划入门）
HihoCoder1084：扩展KMP（二分+hash，求T串中S串的数量，可以失配一定次数）
扩展KMP（占位）
MySQL主备模式的数据一致性解决方案
 MaxCompute问答整理之6月

原文地址：https://www.cnblogs.com/koushr/p/5873444.html