zoukankan      html  css  js  c++  java
  • 布隆过滤器

    布隆过滤器

    布隆过滤器在海量数据的处理应用较为广泛,比如,怎么判断一亿个url里面是不是有重复的。布隆过滤器结合了bitmap和hash的思想,bitmap的做法是使用一个bit来表示某个对象是否有出现,但是其所需要的空间跟所处理对象的最大值有关。

    布隆过滤器采用(k)个hash函数将对象hash成(k)个值,然后将bitmap中这(k)个对应的bit位置都设为1。在查询过程中,需要保证(k)个位置都是1的情况下,才认为该元素出现过。下面的示意图很好地揭示了布隆过滤器地原理。

    那布隆过滤器就是引入了(k(k>1))个相互独立的哈希函数,保证在给定的空间、误判率下,完成元素判重的过程。(来源于zdxiq000:https://blog.csdn.net/zdxiq000/article/details/57626464)

    布隆过滤器的优点有:

    • 计算高效
    • 省空间

    同样,也有一定的缺点

    • 不支持删除操作
    • 存在误判

    下面是一段java代码,可以很好的揭示其运算过程

    public class BloomFilter{
        private final int size;
        private final int hashCount;
        private final BitSet bitSet;
    
        public BloomFilter(int size, int hashCount){
            this.size = size;
            this.hashCount = hashCount;
            this.bitSet = new BitSet(size);
        }
    
        public void put(String key){
            for (int seed = 1; seed <= hashCount; ++seed){
                int hash = Hashing.murmur3_32(seed).hashBytes(key.getBytes()).asInt();
                int index = Math.abs(hash) % size;
                bitSet.set(index);
            }
        }
    
        public boolean lookup(String key){
            for (int seed = 1; seed <= hashCount; ++seed){
                int hash = Hashing.murmur3_32(seed).hashBytes(key.getBytes()).asInt();
                int index = Math.abs(hash)%size;
                if(!bitSet.get(index)) return false;
            }
            return true;
        }
    
    }
    
    class BloomFilterTest{
        public static void main(String[] args) {
            BloomFilter bf = new BloomFilter(3, 100);
            bf.put("123");
            bf.put("1234");
            bf.put("234");
    
            System.out.println(bf.lookup("234"));
        }
    }
    

    布隆过滤器的误差计算

    假设哈希函数等概率地选择每个数组位置,即哈希后的值符合均匀分布,那么每个元素等概率地哈希到位数组的m个比特位上,与其他元素被哈希到哪些位置无关(独立事件)。设定数组总共有m个比特位,有k个哈希函数。在插入一个元素时,一个特定比特没有被某个哈希函数置为1的概率是:(1 - dfrac{1}{m})。插入一个元素后,这个比特没有被任意哈希函数置为1的概率是:((1 - dfrac{1}{m})^k)。在插入了n个元素后,这个特定比特仍然为0的概率是:((1 - dfrac{1}{m})^{nk})。所以这个比特被置为1的概率是:(1 - (1 - dfrac{1}{m})^{nk})
    现在检测一个不在集合里的元素。经过哈希之后的这k个数组位置任意一个位置都是1的概率如上。这k个位置都为1的概率是::(left(1 - (1 - dfrac{1}{m})^{nk} ight)^k),根据

    [lim_{n->infty}(1 + dfrac{1}{n})^n = e ]

    可以知道

    [egin{split} left(1 - (1 - dfrac{1}{m})^{nk} ight)^k &= left[1 - (1 - dfrac{1}{m})^{-mdfrac{nk}{-m}} ight]^k\ &approx left[1 - e^{-dfrac{nk}{m}} ight]^k end{split} ]

    [k = dfrac{m}{n}ln{2 }$$时,有最小值$ln p= -dfrac{m}{n}(ln 2)^2$]

  • 相关阅读:
    HTML <input> 标签
    HTML5 <input> type 属性
    静态页面与动态页面
    string::size_type 页73 size_t 页90
    template method(模板方法)
    C++中创建对象的时候加括号和不加括号的区别(转)
    _declspec(dllexport)和.def(转)
    智能指针
    C++中的delete加深认识
    工厂方法(整理自李建忠<C++设计模式>视频)
  • 原文地址:https://www.cnblogs.com/crackpotisback/p/10058898.html
Copyright © 2011-2022 走看看