zoukankan      html  css  js  c++  java
  • 【算法】布隆过滤BitMap原理

    一、问题引入

    BitMap从字面的意思,很多人认为是位图,其实准确的来说,翻译成基于位的映射,怎么理解呢?
    举一个例子,有一个无序有界int数组{1,2,5,7},初步估计占用内存44=16字节,这倒是没什么奇怪的,但是假如有10亿个这样的数呢,10亿4/(102410241024)=3.72G左右。如果这样的一个大的数据做查找和排序,那估计内存也崩溃了,有人说,这些数据可以不用一次性加载,那就是要存盘了,存盘必然消耗IO。我们提倡的是高性能,这个方案直接不考虑。

    二、问题分析

    如果用BitMap思想来解决的话,就好很多,那么BitMap是怎么解决的啊,如下:
    一个byte是占8个bit,如果每一个bit的值就是有或者没有,也就是二进制的0或者1,如果用bit的位置代表数组值有还是没有,那么0代表该数值没有出现过,1代表该数组值出现过。不也能描述数据了吗?如下图:

     

    是不是很神奇,那么现在假如10亿的数据所需的空间就是3.72G/32了吧,一个占用32bit的数据现在只占用了1bit,节省了不少的空间,排序就更不用说了,一切显得那么顺利。这样的数据之间没有关联性,要是读取的,你可以用多线程的方式去读取。时间复杂度方面也是O(Max/n),其中Max为byte[]数组的大小,n为线程大小。

    三、应用与代码

    如果BitMap仅仅是这个特点,我觉得还不是它的优雅的地方,接下来继续欣赏它的魅力所在。下面的计算思想其实就是针对bit的逻辑运算得到,类似这种逻辑运算的应用场景可以用于权限计算之中。
    再看代码之前,我们先搞清楚一个问题,一个数怎么快速定位它的索引号,也就是说搞清楚byte[index]的index是多少,position是哪一位。举个例子吧,例如add(14)。14已经超出byte[0]的映射范围,在byte[1]范围之类。那么怎么快速定位它的索引呢。如果找到它的索引号,又怎么定位它的位置呢。Index(N)代表N的索引号,Position(N)代表N的所在的位置号。

    Index(N) = N/8 = N >> 3;
    
    Position(N) = N%8 = N & 0x07;

    基于上面的分析,我们写一个简单的BitMap的算法如下:

     1 public class BitMap {
     2     //保存数据的
     3     private byte[] bits;
     4     
     5     //能够存储多少数据
     6     private int capacity;
     7     
     8     
     9     public BitMap(int capacity){
    10         this.capacity = capacity;
    11         
    12         //1bit能存储8个数据,那么capacity数据需要多少个bit呢,capacity/8+1,右移3位相当于除以8
    13         bits = new byte[(capacity >>3 )+1];
    14     }
    15     
    16     public void add(int num){
    17         // num/8得到byte[]的index
    18         int arrayIndex = num >> 3; 
    19         
    20         // num%8得到在byte[index]的位置
    21         int position = num & 0x07; 
    22         
    23         //将1左移position后,那个位置自然就是1,然后和以前的数据做|,这样,那个位置就替换成1了。
    24         bits[arrayIndex] |= 1 << position; 
    25     }
    26     
    27     public boolean contain(int num){
    28         // num/8得到byte[]的index
    29         int arrayIndex = num >> 3; 
    30         
    31         // num%8得到在byte[index]的位置
    32         int position = num & 0x07; 
    33         
    34         //将1左移position后,那个位置自然就是1,然后和以前的数据做&,判断是否为0即可
    35         return (bits[arrayIndex] & (1 << position)) !=0; 
    36     }
    37     
    38     public void clear(int num){
    39         // num/8得到byte[]的index
    40         int arrayIndex = num >> 3; 
    41         
    42         // num%8得到在byte[index]的位置
    43         int position = num & 0x07; 
    44         
    45         //将1左移position后,那个位置自然就是1,然后对取反,再与当前值做&,即可清除当前的位置了.
    46         bits[arrayIndex] &= ~(1 << position); 
    47 
    48 
    49     }
    50     
    51     public static void main(String[] args) {
    52         BitMap bitmap = new BitMap(100);
    53         bitmap.add(7);
    54         System.out.println("插入7成功");
    55         
    56         boolean isexsit = bitmap.contain(7);
    57         System.out.println("7是否存在:"+isexsit);
    58         
    59         bitmap.clear(7);
    60         isexsit = bitmap.contain(7);
    61         System.out.println("7是否存在:"+isexsit);
    62     }
    63 }
  • 相关阅读:
    1
    可测试性
    爬取信件信息(更新)
    爬虫爬取疫情数据存到文件
    python分析三国演义中出现次数最多的词作词频统计
    实验三
    scala统计学生成绩
    对于OpenCV的访问Mat元素的探究
    OpenCV+VS2017+Nivdia(待更新)
    Window10 CUDA和cunn安装
  • 原文地址:https://www.cnblogs.com/itplay/p/10030405.html
Copyright © 2011-2022 走看看