Mapper类源码解析
--------------------------
1.来自[org.apache.hadoop.mapreduce.Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>]
2.java Doc说明:
Map将输入数据<k,v>转换成中间数据集<k,v>
map将为输入的数据的每一个记录(行)执行map函数,MR通过inputfomart生成inputSplit(切分)对象,
并根据每个split产生相对应的maptask。
split切分原则(逻辑的):默认每个block对应一个split。slop指标:1.1
注:如一个文件为130m,生成2个block;一个大小为128m,另一个为2m;
inputsplit切分个数为:1个;
map的输出通过每个reduce进行分区(partition);用户可以通过自定义分区判定哪一个key发送到指定的reduce;
3.Mapper构成:
4个方法:
setup() : 在任务开始时调用一次;
map() : 对输入分块中的每个键/值(行偏移量/行内容)对调用一次。大多数应用程序应该覆盖这个,但默认是identity函数。
cleanup() : 在任务结束时调用一次;
run() : 专家用户可以重写此方法以获得更全面的控制执行。该方法描述了map阶段的函数调用过程。
4.总结:
maptask任务数:由inputsplit切分决定;inputsplit决定由block决定。每个job的map阶段肯定存在的;
reducetask任务数:由job.setNumReducetasks()进行设置,每个reduce根据partition生成不同的输出文件;
案例:设置reducenum数量,默认为1;测试将reducenum设置为2或5
设置reducenum数量为0,取消reduce阶段;
不设置mapper;