这是学习编程珠玑的第一章~
问题描述:
输入:一个最多包含n个正整数的文件,每个数都小于n,其中n=10^7,且所有正整数都不重复。
输出:这n个正整数升序排列输出列表
约束:最多1MB的内存空间,有充足的磁盘存储空间可用,运行时间最多几分钟,运行时间为10秒则不需要优化了。
一、多通道实现:
题目中的限制为所有正整数都不重复。这代表:
输入文件中范围在1~249 999的正整数至多只有250 000个,至多占内存为1MB。
输入文件中范围在250 000~499 999的正整数至多只有250 000个,至多占内存问1MB。
…..
多通道方法:
第1遍遍历文件,将文件中范围在1~ 249 999的正整数读取进入1MB内存,排序(可以使用各种排序方法),将排序后的正整数存储在磁盘文件temp中
第2遍遍历文件,将文件中范围在250 000~499 999的正整数读取进入1MB内存,排序,将排序后的正整数加入存储在磁盘文件temp中
….
第40遍遍历文件,将文件中范围在10^7-250 000~10^7的正整数读取进入1MB内存,排序,将排序后的整数加入存储在磁盘文件temp中
输出temp文件
位图法:
分析:1MB的内存只能存储大约250000个int型整数,远远低于1千万的要求,但是每个int型整数有32位,如果用第i位的0,1来表示数 据i的存在与否,一千万的整数需要1000 0000/32=312500个整数,他们将占有312500*4=1250000个比特,即大约1.2MB的内存。
转载博客:http://www.cnblogs.com/solidblog/archive/2012/07/13/2588987.html
实现:
#include <stdio.h> #include <string> #include <time.h> #define MAX 10000000 #define BITSPERWORD 32 #define SHIFT 5 #define MASK 0x1F int a[1 + MAX / BITSPERWORD]; void clr(int i){a[i>>SHIFT] &= ~(1<<(i & MASK));} void set(int i){a[i>>SHIFT] |= (1<<(i & MASK));} int test(int i){return a[i>>SHIFT] & (1<<(i & MASK));} int main() { int i; for (i = 0; i < MAX; i++) { //clear bit number to 0 clr(i); } char line[10]; FILE *fp; time_t startTime = clock(); time_t endTime; fp = fopen("number.txt", "r"); if (fp) { while (fgets(line,10,fp) != NULL) { i = atoi(line); set(i); } } for (i = 0; i < MAX; i++) { if(test(i)) { printf("%d ",i); } } endTime = clock(); printf("Total time : %d",endTime - startTime); getchar(); return 0; }
-
代码说明
对于像我一样对移位操作符不太熟悉的童鞋,还是重点说明一下位操作吧。-_-
1)数组a
a[1 + N/BITSPERWORD]:一个int占4个字节,所以数组的一位表示4*8 = 32个数值。
2)i>>SHIFT
SHIFT的值为5,因此i>>SHIFT将i向右移动5个二进制位,相当于i /= 25。
从而确定数值i在数组a中的索引下标
3)i & MASK
MASK的值为0x1F = 00011111,i & MASK等同于i % MASK
通过2)中的操作可以确定,i在数组a中的index1;通过该取模操作,可以确定i在该index表示的32为二进制序列中的index2。
因此,1<<(i & MASK)实际上就是仅将该二进制序列中的index2位置设置为1,其余位置全部设置为0.
通过以上分析,不能看出三个位操作函数的功能。
1)clr(int i) {a[i>>SHIFT] &= ~(1<<(i & MASK)); }
将i对应的二进制位设置为0
2)set(int i) {a[i>>SHIFT] |= (1<<(i & MASK)); }
将i对应的二进制位设置为1
3)test(int i){return a[i>>SHIFT] & (1<<(i & MASK));}
测试i对应的二进制位是否为1