给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？ - 走看看

zoukankan html css js c++ java

给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

可以估计每个文件的大小为5G*64=300G，远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
遍历文件a，对每个url求取hash(url)%1000，然后根据所得值将url分别存储到1000个小文件（设为a0,a1,...a999）当中。这样每个小文件的大小约为300M。遍历文件b，采取和a相同的方法将url分别存储到1000个小文件(b0,b1....b999)中。这样处理后，所有可能相同的url都在对应的小文件(a0 vs b0, a1 vs b1....a999 vs b999)当中，不对应的小文件（比如a0 vs b99）不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
比如对于a0 vs b0，我们可以遍历a0，将其中的url存储到hash_map当中。然后遍历b0，如果url在hash_map中，则说明此url在a和b中同时存在，保存到文件中即可。
如果分成的小文件不均匀，导致有些小文件太大（比如大于2G），可以考虑将这些太大的小文件再按类似的方法分成小小文件即可

参考自不知出处是哪的Blog...

查看全文

相关阅读:
WPF 如何画一颗心
 WPF 通过Border来画边框
 WPF 如何引入外部样式
 WPF 变量转换的实现
 WPF 动画显示控件
 wpf 悬浮窗口的实现
 WPF 如何绘制不规则按钮，并且有效点击范围也是不规则的
 WPF 变量绑定实现
 2016年终总结：从程序员到项目经理的转身
 使用FastReport打印二维码

原文地址：https://www.cnblogs.com/zemliu/p/2641036.html

Copyright © 2011-2022 走看看