海量数据处理面试题 - 走看看

zoukankan html css js c++ java

海量数据处理面试题
什么是海量数据处理？

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。

那解决办法呢?针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树，针对空间，无非就一个办法：大而化小，分而治之（hash映射），你不是说规模太大嘛，那简单啊，就把规模大化为规模小的，各个击破不就完了嘛。

至于所谓的单机及集群问题，通俗点来讲，单机就是处理装载数据的机器有限(只要考虑cpu，内存，硬盘的数据交互)，而集群，机器有多辆，适合分布式处理，并行计算(更多考虑节点和节点间的数据交互)。

再者，通过本blog内的有关海量数据处理的文章：Big Data Processing，我们已经大致知道，处理海量数据问题，无非就是：
1. 分而治之/hash映射 + hash统计 + 堆/快速/归并排序；
2. 双层桶划分；
3. Bloom filter/Bitmap；
4. Trie树/数据库/倒排索引；
5. 外排序；
6. 分布式处理之Hadoop/Mapreduce。
---------------------

转自v_JULY_v

海量数据处理面试题
查看全文

相关阅读:
PHP 5 echo 和 print 语句
 MySQL存储过程-遍历游标的例子
 bzoj2554: Color
win10 uwp 入门
 win10 uwp 入门
 win10 uwp 自定义控件 SplitViewItem
win10 uwp 自定义控件 SplitViewItem
win10 uwp ContentDialog 点确定不关闭
 win10 uwp ContentDialog 点确定不关闭
 win10 uwp smms图床

原文地址：https://www.cnblogs.com/Amy-world/p/10870602.html

Copyright © 2011-2022 走看看