位图法 - 走看看

zoukankan html css js c++ java

位图法
位图法是大数据处理中经常用到的技巧，觉得挺有趣，就来讲几句，希望能把位图的思想解释清楚。

个人理解，如有错误，欢迎各路大神指正！

位图法：计算机中表示数据的最小单位为Bit,存储0或者1。而c#中int的大小为4个字节，即32个bit。

如果用int类型表示一个数值，那么一个数值就需要用到32位的存储空间，如果使用0或者1来表示当前索引对应值是否存在，那么原本一个int所占用的空间，可以表示32个整数。

[0] [1] [1] [0] [0] [0] [0] [1] ，如果当一个元素的值为1时，我们就可以判断出其对应的索引值存在，这个例子中表示1，2，7存在。

可以简单的说，数据内存占用率降低到了1/32.

当我们要处理的数据量不仅巨大，并且数据值也极大的时候，用一般的整数值类型（int，int64,long）会造成大量的内存消耗。

这时候使用位图法，就能体现出其优势。

实现（c#）：

这里是用位图法实现的排序方法。
public static Array BitSort(int[] arr, int largestNumber) //传入数组，以及数组的最大值 { BitArray bitAry = new BitArray(largestNumber+1);//根据数据的最大值，创建相应的点阵列 foreach (var item in arr) { bitAry[item] = true;//把数组元素值作为索引，将该索引对应的值置为1，表示该值存在 }
//一次遍历之后，要排序的数组包含的所有值，在点阵列中被置为1 int[] result = new int[arr.Length]; var j = 0; for (var i = 0; i < bitAry.Length; i++) { if (bitAry[i] == true) //遍历点阵列，如果对应的值为1，则将其索引值放置到新集合内，一次遍历，就可以完成排序 { result[j] = i; j++; } } return result; }
用位图法，也可以来快速判断，一个大数据集合中，是否包含了某个特定的值。

思路：创建位图来反应数据集，用特定值作为索引，判断值是否为1，若为1，则表示该值存在于数据集合中。

也可以用来去重，有兴趣的，可以自己实现以下。

劣势：

1. 需要知道数据集的范围，方可快速确定知道需要创建多大的位图。

2. 如果数据离散程度大，那么空间使用率低。如[1,2,3,4,5,900000,900001]

3. 可能较难理解。
查看全文

相关阅读:
exit()和_exit()的比较（与前一篇日志行缓冲区有关）
标准IO缓冲详解全缓冲、行缓冲、不缓冲
 windows与unix/linux下输入回车换行的区别
 strtok()的用法
 头文件的处理
 feof()出现的问题及解决办法
 测试题
 视觉十四讲:第十二讲_八叉树地图
 树莓派4B安装OPENCV4.0
编译OpenCV以及openc_contrib提示缺少boostdesc_bgm.i文件出错的解决

原文地址：https://www.cnblogs.com/ChallengeEverything/p/9069970.html