通常情况下,处理少量的大型文件更容易、更有效,为什么呢?
map阶段中的键如果不需要可以忽略掉?
MapReduce过程也可以用于本地文件的处理,但是如果是要使用到集群的话还需要HDFS。
Data Cube: A Relational Aggregation Operator. Generalizing Group-By, Cross-Tab, and Sub-Totals.
CRC-32 循环冗余校验