InputFormat类: 该类的作用是将输入数据转换为map函数的输入数据。 通过job.setInputFormatClass()方法进行设置, 默认是TextInputFormat,将文本文件分成split(多行),由于测试数据较小,所以每个文本作为一个split了。 并通过LineRecoderReader将行解析成<key,value>对。key为对应行在文件中的偏移量,value为行的内容。
Mapper类:
实现map()函数
Combiner类:
实现combine函数。合并中间结果中具有相同key的键值对。