大数据判存算法：海量数据中快速判断某个数据是否存在

zoukankan html css js c++ java

大数据判存算法：海量数据中快速判断某个数据是否存在
大数据判存算法：海量数据中快速判断某个数据是否存在

不存在的单号对应不到相应的位置。例如上图对应 3，7。虽然3是1，但是7不是1。所以它不存在。有误判的可能性，但是可以控制误判效率

50亿的快递，怎么判断我的快递存在吗？存在在哪家快递？

站在巨人的肩膀上，别重复造轮子了！Google Guava实现了布隆过滤器！
- 带你深入guava源码；
- 通过实战手把手教你布隆过滤器的使用；
源代码分析：

BitArray bits；比特数组

numHashFunctions ：哈希函数个数

put实现：

hash算法：用的murmur3_128。

hash算法用很多，不同的有不同的场景：

murmur3：快速查询。

md5 ：信息摘要算法

crc：数字校验，数字签名

对得到的Hash进行计算，把得到的hash值分为几个计算单元，取模运算，找到对应上数组的位置。

应用：

在人群中找到嫌疑人。

错误率太高 30%

调试源码。

默认的错误率是 30% 经过google工程师大量的测试，要想控制在30%的错误率，100W 应该使用 730W的数组。5个 hash 函数

BloomFilter 有三个参数（数据类型，数据大小，错误率）

我们把错误率设置为 0.01 那么需要 14377587个数组（自动分配），hash函数个数为10。

想要错误率低，查询效率低了，空间需要量比较大。

不能杜绝误判，可以控制误判

防火墙不可能所有的都被拦截，有的请求会透过过滤器，落到数据库里面查询，只要别太多的数据使数据库挂掉就行。合理的控制错误率，不要使得数据库的算力被浪费。
查看全文

相关阅读:
记住密码
 winform 更新服务器程序
 asp.net TreeView
asp.net excel导出红色字体
 asp.net 图表
 图数据存储初见
 在windows下安装hadoop
R 语言实现牛顿下降法
 蛇形矩阵
 算法竞赛入门经典习题2-6 排列(permutation)

原文地址：https://www.cnblogs.com/AronJudge/p/14524516.html