zoukankan      html  css  js  c++  java
  • BloomFilter简介

    BloomFilter 简介

    日常开发中,我们常常需要面对这样一个场景,判断一个元素是否存在集合当中,如我的这个需求,判断用户是否为新用户。一般数据量比较少的时候,很好处理,JavaRedis都提供了Set这个数据结构,我们可以直接调用方法来进行判断即可。但是当数据量比较大时,无论是Java亦或者是Redis中的Set都会占据相当一部分内存,影响整体性能。因此,BloomFilter应运而生。BloomFilter可以理解为一个不怎么精确的Set结构,因为可能存在误判。为什么会存在误判呢?下面我们简要介绍一下BloomFilter

    BloomFilter原理

    BloomFilter是一种概率型数据结构,它由一个长度为m的二进制向量(其实就是位数组)和k个哈希函数组成,其特点是插入和查询的效率非常高,但缺点是存在一定的误判率。

    位数组初始化时各位上都是0,如下所示:

    当向BloomFilter中存入一个key时,经过k个哈希函数的计算之后得到k个不同的哈希值,这些哈希值再模以位数组的长度m,得到k个数组中的位置,再将这些位置上的0修改为1,如下所示:

    当想要查询这个key是否存在时,也很简单,通过哈希函数和位数组的长度获得key映射在位数组上的不同位置,若是有一个位置上仍是0,那么这个key就一定不存在于这个bloomFilter上。若是不同位置上都是1,则这个key有可能存在于这个BloomFilter中。为什么说是有可能呢?考虑一下下图这个场景。

    此时有key1key2两个keyBloomFilter上,导致位数组的2,、4、6、10、12、15位置上都为1。假设现在有一个key3,经过计算之后,其在位数组上的位置分别是2、6、12。这三个位置上都是1,那么这个key3到底在不在BloomFilter里面呢?这个就不得而知了,这也是BoolFilter存在误判的原因。所以才有了那个结论:当我们搜索一个值的时候,若该值经过 k 个哈希函数运算后的任何一个索引位为 ”0“,那么该值肯定不在集合中。但如果所有哈希索引值均为 ”1“,则只能说该搜索的值可能存在集合中。一句话就是,不存在就一定不存在,存在也可能是不存在的

    误判率

    既然存在误判率,那么我们怎么控制呢?还是要从BloomFilter的结构上分析。当位数组长度比较小,且哈希函数比较少时,经过nkey之后,可以预见位数组上大部分都已经是1,这个时候误判率将会非常高,因为你没办法区分位置上的1是由key自身生成的,还是设置其他key导致的。所以,误判率是由哈希函数的个数k、位数组长度m以及key个数n共同决定的,公式如下所示:

    极端情况下,当BloomFilter没有空闲空间的时候,每一次查询都会返回true。这就意味着我们在初始化BloomFilter时要预估好key的个数和位数组长度m,需要使得m远远大于n

    位数组长度m可以根据预估误判率FFP和预估key的数量计算得到,如下所示:

    具体的数学推导,可以参考这篇文章

    当位数组长度m确定之后,哈希函数个数k可以依靠下面公式大概估计出来:

    k=0.7*(m/n)
    k,最佳哈希次数,即哈希函数的个数;
    m,位数组长度;
    n,期望添加的key数量
    

    上面的公式计算起来可能比较麻烦,网上有人提供了一个网址,可以直接刷入相关参数来获得具体的值,有兴趣的话可以自己看一下,布隆计算器

    假如在使用BloomFilter时,位数组长度设置有误,导致最后添加的key数量n大于位数组长度m时,误判率会如何变化。这时候另一个公式派上用场:

    f=(1-0.5^t)^k 
    t,实际key数量与预估key数量之比
    k,哈希函数个数
    

    上图出自《Redis深度历险:核心原理和应用实践》中,关于t增大时,误判率的变化。可以发现t增大时,误判率将会增大。

    BloomFilter 实践

    整合代码放到了这里,感兴趣的可以看一下,BloomFilter实现新用户判断

    参考

    [布隆过滤器(Bloom Filter)的原理和实现]

    5 分钟搞懂布隆过滤器,亿级数据过滤算法你值得拥有!

    [布隆过滤器 (Bloom Filter) 详解]

    在redis中使用BloomFilter布隆过滤器

    《Redis深度历险:核心原理和应用实践》

  • 相关阅读:
    03、使用字符串
    加载selenium2Library失败---robotframework环境搭建(site-packages下无selenium2library文件夹)
    python无法启动火狐浏览器且报错“selenium.common.exceptions.WebDriverException: Message: Unable to find a matching set of capabilities”
    移动H5前端性能优化指南
    appium+python 启动一个app步骤
    Appium_Python_Client介绍
    python自动化---各类发送邮件方法及其可能的错误
    python自动化--批量执行测试之生成报告
    揭秘webdriver实现原理【转】
    selenium 三种断言以及异常类型
  • 原文地址:https://www.cnblogs.com/reecelin/p/13510315.html
Copyright © 2011-2022 走看看