zoukankan      html  css  js  c++  java
  • 海量数据查找问题

    一般解题思路: 
    1、将数据导入到内存中 
    2、将数据进行排序 (比如插入排序、快速排序) 
    3、将排序好的数据存入文件
    特殊:
    1、导入数据库运算 
    2、分段排序运算 
    3、传说中bitmap,使用bit位运算 (最快,N/8),例如:比如读到一个数据为341245909这个数据,那就先在内存中找到341245909这个bit,并将bit值置为1遍历整个bit数组,将bit为1的数组下标存入文件

    很多哥们在说到bitmap的时候表示不理解,小弟在这里就简单说一种可以使用的场景。
    场景:有两个大文件,每个比如10G,文件里数据全部打乱了,但是两个文件中有大部分每行数据是对应相同的,只有少部分不相同。分配内存4G,怎么找出两个文件中所有不相同的行?
    (1)第一步:对每个文件来说,先把每行的数据(string)映射成整形(int, long, long long)看你喜欢,但是原则是:尽量保证string和整数之间是一一对应的关系。Eg:hash是个不错的选择。
    (2)第二步:对每个文件来说,可以用bitmap(10G/8)统计哪些数据有(1),哪些数据没有(0)。Eg:比如你现在有第4000条数据和第800条数据,bitmap就相当于是用一位来表示某个数据有或者没有,00000001,就说明有第一个数据,00000010就说明有第二个数据。然后第4000个数据的话,就用第500个字节的第八位就可以来表示;第800个数据的话,就用第100个字节得第八位来表示有没有。
    (3)第三步:两个文件起来看,两个文件集体再统计一次,重复(1+1=2),不重复(1+0=1或0+1=1),两个都没有(0+0=0)
  • 相关阅读:
    用VC编译lua源码,生成lua语言的解释器和编译器
    vs如何在C++中调用Lua
    打印页面 订单号生成 条形码
    关于 打印页面 图片被截断
    easyui numberbox输入框 编辑不可编辑的切换
    点击空白处--某个div 消失
    easyui扩展行默认展开 以及 去除滚动条
    eayui grid 每一页的行号都是从1开始
    js中的this--执行上下文
    easyui grid 本地做分页
  • 原文地址:https://www.cnblogs.com/zlcxbb/p/5757066.html
Copyright © 2011-2022 走看看