海量数据处理问题

zoukankan html css js c++ java

海量数据处理问题

何谓海量数据处理？
所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。

那解决办法呢?针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树，针对空间，无非就一个办法：大而化小，分而治之（hash映射），你不是说规模太大嘛，那简单啊，就把规模大化为规模小的，各个击破不就完了嘛。

5、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？
方案1：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,...,a999）中。这样每个小文件的大约为300M。

遍历文件b，采取和a相同的方式将url分别存储到1000小文件（记为b0,b1,...,b999）。这样处理后，所有可能相同的url都在对应的小文件（a0vsb0,a1vsb1,...,a999vsb999）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。

6、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。
方案1：采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存2^32 * 2 bit=1 GB内存，还可以接受。然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。所描完事后，查看bitmap，把对应位是01的整数输出即可。

7、腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？
方案1：oo，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

8、怎么在海量数据中找出重复次数最多的一个？
方案1：先做hash，然后求模映射为小文件，求出每个小文件中重复次数最多的一个，并记录重复次数。然后找出上一步求出的数据中重复次数最多的一个就是所求（具体参考前面的题）

附、100w个数中找出最大的100个数。
方案1：在前面的题中，我们已经提到了，用一个含100个元素的最小堆完成。复杂度为O(100w*lg100)。

方案2：采用快速排序的思想，每次分割之后只考虑比轴大的一部分，知道比轴大的一部分在比100多的时候，采用传统排序算法排序，取前100个。复杂度为O(100w*100)。

总结：
Bloom filter适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集。
Hashing适用范围：快速查找，删除的基本数据结构，通常需要总数据量可以放入内存。
bit-map适用范围：可进行数据的快速查找，判重，删除，一般来说数据范围是int的10倍以下。
Heap适用范围：海量数据前n大，并且n比较小，堆可以放入内存。
双层桶划分：适用范围：第k大，中位数，不重复或重复的数字。
Trie树适用范围：数据量大，重复多，但是数据种类小可以放入内存。
Mapreduce适用范围：数据量大，但是数据种类小可以放入内存。

处理海量数据问题之六把密匙
密匙一、分而治之/Hash映射 + Hash_map统计 + 堆/快速/归并排序，典型TOP K问题就可用此方法。
密匙二、多层划分。
密匙三、Bloom filter/Bitmap。
密匙四、Trie树/数据库/倒排索引。
密匙五、外排序。
密匙六、分布式处理之Mapreduce。

节选自：十道海量数据处理面试题与十个方法大总结、教你如何迅速秒杀掉：99%的海量数据处理面试题。

查看全文

相关阅读:
Openfire 调试信息
 ejabberd分析(三)启动流程
 Openfire 离线消息的处理机制
 OpenFire SSLSocketFactory 编译报错解决
 用消息队列和消息应用状态表来消除分布式事务
 XMPP文件传输过程
 ejabberd分析(一)
erlang(1)
Openfire 好友状态的发送(用户登录)
ejabberd分析(二) 用户注册

原文地址：https://www.cnblogs.com/shuaihanhungry/p/5773171.html