布隆过滤器
布隆过滤器在海量数据的处理应用较为广泛,比如,怎么判断一亿个url里面是不是有重复的。布隆过滤器结合了bitmap和hash的思想,bitmap的做法是使用一个bit来表示某个对象是否有出现,但是其所需要的空间跟所处理对象的最大值有关。
布隆过滤器采用(k)个hash函数将对象hash成(k)个值,然后将bitmap中这(k)个对应的bit位置都设为1。在查询过程中,需要保证(k)个位置都是1的情况下,才认为该元素出现过。下面的示意图很好地揭示了布隆过滤器地原理。
那布隆过滤器就是引入了(k(k>1))个相互独立的哈希函数,保证在给定的空间、误判率下,完成元素判重的过程。(来源于zdxiq000:https://blog.csdn.net/zdxiq000/article/details/57626464)
布隆过滤器的优点有:
- 计算高效
- 省空间
同样,也有一定的缺点
- 不支持删除操作
- 存在误判
下面是一段java代码,可以很好的揭示其运算过程
public class BloomFilter{
private final int size;
private final int hashCount;
private final BitSet bitSet;
public BloomFilter(int size, int hashCount){
this.size = size;
this.hashCount = hashCount;
this.bitSet = new BitSet(size);
}
public void put(String key){
for (int seed = 1; seed <= hashCount; ++seed){
int hash = Hashing.murmur3_32(seed).hashBytes(key.getBytes()).asInt();
int index = Math.abs(hash) % size;
bitSet.set(index);
}
}
public boolean lookup(String key){
for (int seed = 1; seed <= hashCount; ++seed){
int hash = Hashing.murmur3_32(seed).hashBytes(key.getBytes()).asInt();
int index = Math.abs(hash)%size;
if(!bitSet.get(index)) return false;
}
return true;
}
}
class BloomFilterTest{
public static void main(String[] args) {
BloomFilter bf = new BloomFilter(3, 100);
bf.put("123");
bf.put("1234");
bf.put("234");
System.out.println(bf.lookup("234"));
}
}
布隆过滤器的误差计算
假设哈希函数等概率地选择每个数组位置,即哈希后的值符合均匀分布,那么每个元素等概率地哈希到位数组的m个比特位上,与其他元素被哈希到哪些位置无关(独立事件)。设定数组总共有m个比特位,有k个哈希函数。在插入一个元素时,一个特定比特没有被某个哈希函数置为1的概率是:(1 - dfrac{1}{m})。插入一个元素后,这个比特没有被任意哈希函数置为1的概率是:((1 - dfrac{1}{m})^k)。在插入了n个元素后,这个特定比特仍然为0的概率是:((1 - dfrac{1}{m})^{nk})。所以这个比特被置为1的概率是:(1 - (1 - dfrac{1}{m})^{nk})
现在检测一个不在集合里的元素。经过哈希之后的这k个数组位置任意一个位置都是1的概率如上。这k个位置都为1的概率是::(left(1 - (1 - dfrac{1}{m})^{nk}
ight)^k),根据
可以知道
当