MapReduce执行流程

zoukankan html css js c++ java

MapReduce执行流程
MapReduce的处理流程解析

Mapper任务执行过程详解

l第一阶段是把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认情况下，Split size = Block size。每一个切片由一个MapTask处理。（getSplits）

l第二阶段是对切片中的数据按照一定的规则解析成<key,value>对。默认规则是把每一行文本内容解析成键值对。key是每一行的起始位置(单位是字节)，value是本行的文本内容。（TextInputFormat）

l第三阶段是调用Mapper类中的map方法。上阶段中每解析出来的一个<k,v>，调用一次map方法。每次调用map方法会输出零个或多个键值对。

l第四阶段是按照一定的规则对第三阶段输出的键值对进行分区。默认是只有一个区。分区的数量就是Reducer任务运行的数量。默认只有一个Reducer任务。

l第五阶段是对每个分区中的键值对进行排序。首先，按照键进行排序，对于键相同的键值对，按照值进行排序。比如三个键值对<2,2>、<1,3>、<2,1>，键和值分别是整数。那么排序后的结果是<1,3>、<2,1>、<2,2>。如果有第六阶段，那么进入第六阶段；如果没有，直接输出到文件中。

l第六阶段是对数据进行局部聚合处理，也就是combiner处理。键相等的键值对会调用一次reduce方法。经过这一阶段，数据量会减少。本阶段默认是没有的。

Reducer任务执行过程详解

l第一阶段是Reducer任务会主动从Mapper任务复制其输出的键值对。Mapper任务可能会有很多，因此Reducer会复制多个Mapper的输出。

l第二阶段是把复制到Reducer本地数据，全部进行合并，即把分散的数据合并成一个大的数据。再对合并后的数据排序。

l第三阶段是对排序后的键值对调用reduce方法。键相等的键值对调用一次reduce方法，每次调用会产生零个或者多个键值对。最后把这些输出的键值对写入到HDFS文件中。

在整个MapReduce程序的开发过程中，我们最大的工作量是覆盖map函数和覆盖reduce函数。

总结：

执行步骤：

map任务处理：
读取输入文件内容，解析为key value 键值对，对输入文件的每一行，解析为key value对。每一个键值对调用一次map函数。

写自己的逻辑，对输入的Key Value 处理，转换为新的 kv对输出！

对输出的key value 进行分区！

对不同的分区数据，按照key进行排序 ,分组。相同的key的value放到一个集合中

分组后进行数据归约。
reduce任务处理：
对多个map任务的输出，按照不同分区，通过网络copy到不同的reduce节点

对多个map任务的输出进行合并，排序。写reduce自己的逻辑，输入的key value 进行处理，转换成新的key value输出！

把reduce的输出保存到文件中！
查看全文

相关阅读:
hdoj2159【二位费用背包】
POJ2367【拓扑排序】
POJ2371【水题】
POJ2369【循环节】
POJ2370【水题】
POJ2365【几何】
POJ2366【二分】
POJ1276【多重背包】
瞎说一波3种基本背包问题【希望巨巨们指出错误】
Codeforces 550B 【暴力】

原文地址：https://www.cnblogs.com/TiePiHeTao/p/44ce7c0e6ef6c6d41a2a1a21ff684522.html

MapReduce执行流程

MapReduce的处理流程解析

Mapper任务执行过程详解

Reducer任务执行过程详解

在整个MapReduce程序的开发过程中，我们最大的工作量是覆盖map函数和覆盖reduce函数。

总结：

执行步骤：

map任务处理：

reduce任务处理：