哈希——布隆过滤器查黑名单（大数据 100亿数据）

zoukankan html css js c++ java

哈希——布隆过滤器查黑名单（大数据 100亿数据）

查黑名单（大数据 100亿数据）

不理想的是：

1.使用哈希表来查（要使用非常大的空间）

2.改进：使用哈希分流，然后将使用多个计算机处理（浪费机器，代价高）

理想的是使用布隆过滤器（一种集合，但是有失误率，不属于黑名单的url可能会被认为在黑名单中，误报）：

使用的是基本数据类型的数组

然后使用数组中的bit位

如 int 型数据 4个字节，32bit，int [] array = new int[1000];可以表示32*1000个位置

例：将某个位置描黑index：

1.这个bit位来自哪个整数：intIndex = index / 32

2.这个位置是这个整数的具体哪个bit：bitIndex = index % 32

3.描黑操作（找到相应的bit位）：array[intIndex] = (array[intIndex] | (1 << bitIndex));

也可以用long类型的（64bit），

long [] array = new long[1000] 1000*64 个位置

long[][] array = new long[1000][1000] 1000*1000*64 个位置

每个url经过k个哈希函数（相互独立的），对应相应位置上描黑，所有黑名单中每个url都描黑之后，整个布隆过滤器的数组相应位置就被描黑了

当检查url时，计算k个哈希函数的位置，当所有的位置都是黑的的情况下，就认为在过滤器中，否则就不在

样本量 n:100亿，失误率 p：0.0001万分之一

1.需要开的空间大小m 大小为bit：

m = 1,879,591,836,735 bit

其中n 为样本量，p为预期失误率

实际的字节 m / 8 1,879,591,836,735 bit / 8 = 234948979591字节 =23.3G（向上取整）内存

2.哈希函数的个数k：

k = 13 （向上取整）

注：m和k向上取整

3.根据m和k向上取整之后，真实的失误率：

p=6/十万

查看全文

相关阅读:
WPF学习10：基于MVVM Light 制作图形编辑工具（1）
外文翻译《How we decide》赛场上的四分卫
 算法学习01：二分查询，选择法、插入法、分治法排序
 外文翻译《How we decide》 Introduction
WPF学习09：数据绑定之 Binding to List Data
WPF学习08：MVVM 预备知识之COMMAND
WPF学习07：MVVM 预备知识之数据绑定
 WPF学习05：2D绘图使用Transform进行控件变形
 WPF学习06：转换控件内容为可存储图片
 WPF学习04：2D绘图使用Shape绘基本图形

原文地址：https://www.cnblogs.com/SkyeAngel/p/8950524.html

哈希——布隆过滤器 查黑名单（大数据 100亿数据）

哈希——布隆过滤器查黑名单（大数据 100亿数据）