布隆过滤器 - 走看看

zoukankan html css js c++ java

布隆过滤器

可运用于网页黑名单系统垃圾邮件过滤系统爬虫的网址判重系统等数据量很大的问题

--好的哈希函数能将很多输入均匀地分布在bit array上，将所有值%m，可以分布到0~m-1上。处理过程如上图所示，一个对象经过k个哈希函数处理后，得到k个值，根据这k个值将对应的bit做标记。处理完所有输入之后，一个布隆过滤生成结束。

--检查阶段，对于一个输入a,如果，经过哈希处理后有一个bit没有被标记，那么该输入就不存在测试集合中，反之，则存在。

但是，如果测试集合很多，那么bit array 可能大部分被标记，即使某一个输入并不是测试集合中的记录，但是很有可能他所对应的bit都是标记过的。要排除这种情况，就要合理地设计bit array 的大小m，哈希函数的个数k，针对给定的失误率p，就有以下公式：

m = -(n*lnp)/(ln2)²

k = ln2 * (m/n) 其中n为测试集合中记录条数

查看全文

相关阅读:
前端利用百度开发文档给的web服务接口实现对某个区域周边配套的检索
 libevent源码学习（13）：事件主循环event_base_loop
libevent源码学习（11）：超时管理之min_heap
libevent源码学习（10）：min_heap数据结构解析
 libevent源码学习（8）：event_signal_map解析
 libevent源码学习（9）：事件event
libevent源码学习（6）：事件处理基础——event_base的创建
 libevent源码学习（5）：TAILQ_QUEUE解析
 仿Neo4j里的知识图谱，利用d3+vue开发的一个网络拓扑图
 element表格内每一行删除提示el-popover的使用要点

原文地址：https://www.cnblogs.com/lp3318/p/5646692.html

Copyright © 2011-2022 走看看