布隆过滤器 - 走看看

zoukankan html css js c++ java

布隆过滤器
BloomFilter的关键在于hash算法的设定和bit数组的大小确定，通过权衡得到一个错误概率可以接受的结果。

算法比较复杂，也不是我们研究的范畴，我们直接使用已有的实现。

google的guava包中提供了BloomFilter类

1、原理

布隆过滤器的巨大用处就是，能够迅速判断一个元素是否在一个集合中。因此他有如下三个使用场景:

网页爬虫对URL的去重，避免爬取相同的URL地址

反垃圾邮件，从数十亿个垃圾邮件列表中判断某邮箱是否垃圾邮箱（同理，垃圾短信）

缓存击穿，将已存在的缓存放到布隆过滤器中，当黑客访问不存在的缓存时迅速返回避免缓存及DB挂掉。

原理：

当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检元素一定不在；如果都是1，则被检元素很可能在。

其内部维护一个全为0的bit数组，需要说明的是，布隆过滤器有一个误判率的概念，误判率越低，则数组越长，所占空间越大。误判率越高则数组越小，所占的空间越小。

假设，根据误判率，我们生成一个10位的bit数组，以及2个hash函数（(f_1,f_2)），如下图所示(生成的数组的位数和hash函数的数量，我们不用去关心是如何生成的，有数学论文进行过专业的证明)。

假设输入集合为((N_1,N_2)),经过计算(f_1(N_1))得到的数值得为2，(f_2(N_1))得到的数值为5，则将数组下标为2和下表为5的位置置为1，如下图所示

同理，经过计算(f_1(N_2))得到的数值得为3，(f_2(N_2))得到的数值为6，则将数组下标为3和下表为6的位置置为1，如下图所示

这个时候，我们有第三个数(N_3)，我们判断(N_3)在不在集合((N_1,N_2))中，就进行(f_1(N_3)，f_2(N_3))的计算

若值恰巧都位于上图的红色位置中，我们则认为，(N_3)在集合((N_1,N_2))中

若值有一个不位于上图的红色位置中，我们则认为，(N_3)不在集合((N_1,N_2))中

以上就是布隆过滤器的计算原理，下面我们进行性能测试，

2、性能测试

(1)新建一个maven工程，引入guava包
Xml代码

<dependencies>

        <dependency>

            <groupId>com.google.guava</groupId>

            <artifactId>guava</artifactId>

            <version>22.0</version>

        </dependency>

    </dependencies>
(2)测试一个元素是否属于一个百万元素集合所需耗时
Java代码

package bloomfilter;



import com.google.common.hash.BloomFilter;

import com.google.common.hash.Funnels;

import java.nio.charset.Charset;



public class Test {

    private static int size = 1000000;



    private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size);



    public static void main(String[] args) {

        for (int i = 0; i < size; i++) {

            bloomFilter.put(i);

        }

        long startTime = System.nanoTime(); // 获取开始时间



        //判断这一百万个数中是否包含29999这个数

        if (bloomFilter.mightContain(29999)) {

            System.out.println("命中了");

        }

        long endTime = System.nanoTime();   // 获取结束时间



        System.out.println("程序运行时间： " + (endTime - startTime) + "纳秒");



    }

}
输出如下所示

命中了

程序运行时间： 219386纳秒

也就是说，判断一个数是否属于一个百万级别的集合，只要0.219ms就可以完成，性能极佳。

(3)误判率的一些概念

首先，我们先不对误判率做显示的设置，进行一个测试，代码如下所示
Java代码

package bloomfilter;



import java.util.ArrayList;

import java.util.List;



import com.google.common.hash.BloomFilter;

import com.google.common.hash.Funnels;



public class Test {

    private static int size = 1000000;



    private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size);



    public static void main(String[] args) {

        for (int i = 0; i < size; i++) {

            bloomFilter.put(i);

        }

        List<Integer> list = new ArrayList<Integer>(1000);



        //故意取10000个不在过滤器里的值，看看有多少个会被认为在过滤器里

        for (int i = size + 10000; i < size + 20000; i++) {

            if (bloomFilter.mightContain(i)) {

                list.add(i);

            }

        }

        System.out.println("误判的数量：" + list.size());



    }

}
输出结果如下

误判对数量：330

如果上述代码所示，我们故意取10000个不在过滤器里的值，却还有330个被认为在过滤器里，这说明了误判率为0.03.即，在不做任何设置的情况下，默认的误判率为0.03。

下面上源码来证明：

构造方法改为：
Java代码

private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size,0.01);
此时误判率为0.01.

4、实际使用

伪代码：
Java代码

String get(String key) {

   String value = redis.get(key);

   if (value  == null) {

        if(!bloomfilter.mightContain(key)){

            return null;

        }else{

           value = db.get(key);

           redis.set(key, value);

        }

    }

    return value；

}
缺点：

需要另外维护一个集合来存放缓存的Key

布隆过滤器不支持删值操作
查看全文

相关阅读:
[git 学习篇] git commit原理 --实践体会
 [git 学习篇]工作区和暂存区
 [git 学习篇] git文件版本回退再学习
 [git 学习篇]版本回退
 [git 学习篇] 修改文件
 [git 学习篇] 提交文件
 [git 学习篇] --创建git创库
 [测试框架学习] 测试框架的结构包含
 [python测试框架] http接口测试框架
 向SharePoint页面添加后台代码

原文地址：https://www.cnblogs.com/zyy1688/p/10794855.html