一、文件切分块大小
splitSize = max (minSize, min(maxSize,blockSize))
其中:
minSize 参数mapred.min.split.size指定
maxSize 参数mapred.max.split.size指定
blockSize 块大小,默认64M
即不再考虑用户设定的Map Task个数
二、Mapper、Reducer 解析
特殊的Mapper/Reducer:
ChainMapper / ChainReducer:链
IdentityMapper / IdentityReducer:不处理直接输入
InvertMapper:交互key、value
RegexMapper:正则表达式
TokenMapper:拆分字符串
LongSumRducer:累加
三、Hadoop工作流
1、JobControl
2、ChainMapper / ChainReducer
3、Pig、Hive、Oozie、Azkakan