问题描述:有两份文件,一份包含100W个数字(largeW.txt),作为白名单,另一份含1000W个数字(largeT.txt),如果此数字存在于白名单中,则不处理,如果不在,则打印出来。
要求:
a)使用二分查找;
b)计算程序运行时间;
c)数据采用rand.cc自动生成。
1、将100W个int数据,和1000W个int数据分别存放于samllT.txt 和 largeT.txt中,
rand.cc程序比较简单,代码如下:
//radn.cc -->生成随机数 #include <iostream> #include <string> #include <vector> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <fcntl.h> #include <unistd.h> #include <errno.h> #include <sys/time.h> #define ERR_EXIT(m) do { perror(m); exit(EXIT_FAILURE); }while(0) using namespace std;
//写入文件 void writeIntegerToFile(int fd, int value) { char text[100] = {0}; snprintf(text, sizeof text, "%d ", value); if(write(fd, text, strlen(text)) == -1) ERR_EXIT("write"); } //返回time double get_time() // 对运行时间进行封装 { struct timeval tm; memset(&tm, 0, sizeof tm); if(gettimeofday(&tm, NULL) == -1) ERR_EXIT("gettimeofday"); double res = 0.0; res += tm.tv_sec; res += tm.tv_usec / (double)1000000; return res; } int main(int argc, const char *argv[]) { double startTime = get_time(); const int kSize = 1000000; srand(kSize); int fd = open("largeT.txt", O_CREAT | O_WRONLY | O_TRUNC, 0666); if(fd == -1) ERR_EXIT("open");
for(int i = 0; i != kSize; ++i) { writeIntegerToFile(fd, rand() % kSize); } close(fd);
double endTime = get_time(); double cost = endTime - startTime; cout << "花费时间 " << cost << " s" << endl; return 0; }
2、二分查找算法:
注意:二分查找通常用在已经有序的数组中。
解法:
1):通过下标操作, 我们把要查找的元素值记为 val ,首元素的下标记为 low, 末尾元素的下标记为high; mid 为low 和 high 的中间值 ,即 mid = (high+low)/2 ;
2): 比较 val 与mid 所对应的元素值
3):如果 val 等于 当前的 mid 所对应的元素值 ,则查找成功 ;
4): 如果 val 大于 当前的mid 所对应的元素值, 则说明 我们要查找的元素 (可能)位于后半段 ;我们将当前的mid值 赋值给 low ,再将mid 的下标置为(low +high);执行 步骤 2)。
5): 如果 val小于 当前的mid 所对应的元素值, 则说明 我们要查找的元素 (可能)位于前半段 ;我们将当前的mid值 赋值给 high ,再将mid 的下标置为(low +high);执行 步骤 2)。
6):若当 low 的值 大于high 的值时 ,仍未找到该val ,则说明查找失败 。
代码如下:
//BinarySearch.cc #include <iostream> #include <string> #include <vector> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <fcntl.h> #include <errno.h> #include <sys/time.h> #include <algorithm> using namespace std ; bool BinarySearch(const vector<int> vec , int val, int min, int max) { int mid = (min + max )/2 ; while( min <= max ) { if(vec[mid] == val ) { return true ; }else if( vec[mid] > val ) { max = mid - 1 ; mid = (min + max) / 2 ; }else { min = mid + 1 ; mid = (min + max ) / 2 ; } } cout << "The val of the num is :" << val << " " << endl ; return false ; } int main(int argc, const char *argv[]) { FILE* fpLarge = fopen("largeT.txt" , "rb") ; FILE* fpSmall = fopen("smallT.txt" , "rb") ; if(NULL ==fpLarge || NULL == fpSmall) { perror("open"); exit(1); } vector<int> Larvec ; vector<int> Smlvec ; // int Ssize = 10000 ; int Lsize = 1000000 ; char buf[128] ; while(memset(buf , 0, sizeof(buf)) ,fgets(buf ,sizeof(buf) ,fpLarge)!= NULL) { int tmp = atoi(buf); Larvec.push_back(tmp); } sort( Larvec.begin() , Larvec.end()); int val ; while(memset(buf , 0, sizeof(buf)) ,fgets(buf ,sizeof(buf) ,fpSmall)!= NULL) { val = atoi(buf); Smlvec.push_back(val); } int cnt = 0 ;//标记未查找成功的个数 for(vector<int>::size_type ix = 0 ; ix != Smlvec.size() ; ++ix) { bool rec ; rec = BinarySearch(Larvec , Smlvec[ix], 0 , Lsize ); if(!rec) cnt ++ ; } cout << "The cnt of Searching false is : " << cnt << endl ;//输出查找失败总数 cout << "Time used = " << (double)clock()/CLOCKS_PER_SEC << endl ;//输出程序运行时间 fclose(fpLarge); fclose(fpSmall); return 0; }