布隆过滤器原理及使用

zoukankan html css js c++ java

布隆过滤器原理及使用
什么是布隆过滤器

1970年，由布隆提出来的一个用于判断元素是否在集合中的高效的算法，集合中的元素可以增加，但是要删除一个元素比较困难，同时还有少量的误报率。

在数据量比较小的时候，我们可以使用 Hash 来判断元素是否命中，但是当元素增加起来后，Hash 算法需要的空间就会急速增长，查找时间也会增加。布隆过滤器主要用在样本集合量大但是很少有删除元素，不要求 $100 %$

布隆过滤器原理

爬虫URL去重

初始条件
- 设数据集合 $A = a_{1}, a_{2}, \dots ., a_{n}$
- Bloom Filter 用一个长度为 $m$
- $k$
加入url的处理
- 首先经过 $k$
检查是否重复
- 首先将该元素经过上步中类似操作，获得 $k$
执行示意图

算法特点
- 对于已经在集合中的元素，通过上述中的查找方法，一定可以判定该元素在集合中。
- 对于不在集合中的元素，可能会被误判在集合中。
布隆过滤器的选择与质量评估

确定布隆过滤器的长度 $m$

设样本个数为 $n$

$n$

确定哈希函数的个数 $k$

根据已求得的 $m$

$m$

计算真实失误率

根据向上取整的 $m 、 n 、 k$

$m 、 n 、 k$

Python实现布隆过滤器

安装PyBloom

Python中有多个实现 BloomFilter 的包详情可以自己搜索Pypi，本文中主要介绍 PyBloom，可以通过 pip 进行安装。
pip install pybloom
也可以直接去作者的github上下载源码编译安装。
python setup.py install
PyBloom源码解析

pybloom主要包括两个类：BloomFilter和ScalableBloomFilter。

BloomFilter 是一个定容的过滤器， $e r r o r_{r a t e}$

ScalableBloomFilter类

在ScalableBloomFilter的 add 方法中可以看到：

其本质依旧是创建了一个BloomFilter类。

BloomFilter类

在BloomFilter的 __init__ 函数中：

可以看到它引用了Python的bitarray库来实现布隆过滤器。

在BloomFilter的 add 方法中：

可以看到，我们可以通过设置 $s k i p_{c h e c k}$

PyBloom的使用

使用BloomFilter
from pybloom import BloomFilter bf = BloomFilter(capacity=10000, error_rate=0.001) bf.add('test-bf') print 'test-bf' in bf

True
使用ScalableBloomFilter
from pybloom import ScalableBloomFilter sbf = ScalableBloomFilter(mode=ScalableBloomFilter.SMALL_SET_GROWTH) sbf.add('test-sbf') print 'sbf' in sbf False
查看全文

相关阅读:
如何对已上架的宝贝进行调整不被降权？
报错ERR_CONNECTION_REFUSED，如何解决（原创）
***在Linux环境下mysql的root密码忘记解决方法（三种）-推荐第三种
 微信获取用户基本信息，头像是一张“暂时无法查看”的图？
Linux中zip压缩和unzip解压缩命令详解
 Android必知必会-App 常用图标尺寸规范汇总
 国外主机海外主机测评总结
 美国主机BlueHost vs HostEase
cPanel中添加设置附加域(Addon domain)
香港新世界机房和电讯盈科机房，沙田机房，葵芳机房哪数据中心一个好？服务器托管

原文地址：https://www.cnblogs.com/tcppdu/p/10232876.html

布隆过滤器原理及使用

什么是布隆过滤器

布隆过滤器原理

爬虫URL去重

初始条件

加入url的处理

检查是否重复

执行示意图

算法特点

布隆过滤器的选择与质量评估

确定布隆过滤器的长度 mm

确定哈希函数的个数 kk

计算真实失误率

Python实现布隆过滤器

安装PyBloom

PyBloom源码解析

ScalableBloomFilter类

BloomFilter类

PyBloom的使用

使用BloomFilter

使用ScalableBloomFilter

确定布隆过滤器的长度 $m$

确定哈希函数的个数 $k$