wordcount
-
输入数据
atguigu atguigu
ss ss
cls cls
jiao
banzhang
xue
hadoop -
输出数据
atguigu 2
banzhang 1
cls 2
hadoop 1
jiao 1
ss 2
xue 1 -
Mapper
-
将MapTask传给我们的文本内容先转换成String
atguigu atguigu
-
根据空格将这一行切分成单词
atguigu
atguigu
-
将单词输出为<单词,1>
atguigu,1
atguigu,1
-
-
Reduce
-
汇总各个key的个数
atguigu,1
atguigu,1
-
输出该key的总次数
atguigu,2
-
-
Driver
-
获取配置信息,获取job对象实例
-
指定本程序的jar包所在的本地路径
-
关联Mapper/Reduce业务类
-
指定Mapper输出数据的kv类型
-
指定最终输出的数据的kv类型
-
指定job的输入原始文件所在目录
-
指定job的输出结果所在目录
-
提交作业
-
MapReduce编程模型之Map和Reduce
-
将作业拆分成Map阶段和Reduce
-
Map阶段:Map Tasks
-
Reduce阶段:Reduce Tasks
MapReduce编程模型之Map和Reduce
-
准备map处理的输入数据
-
Mapper处理
-
Shuffle
-
Reduce处理
-
结果输出
核心概念
-
Split:交由MapReduce作业来处理的数据块,是MapReduce中最小的计算单元
-
HDFS:blocksize是HDFS中最小的存储单元 128M
-
默认情况下:他们两是一一对应的,当然我们也可以手工设置他们之间的关系
-
-
InputFormat
-
OutputFormat
-
Combiner
-
Partitioner
MapReduce框架原理
InputFormat数据输入
切片与MapTask并行度决定机制
-
MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个job的处理速度。
-
MapTask并行度决定机制
-
数据块:Block是HDFS物理上把数据分成一块一块
-
数据切片:数据切片只是在逻辑上对输入进行切片,并不会在磁盘上将其切分成片进行存储
-
job提交流程源码解析
FileInputFormat切片源码解析(input.getSplits(job))
-
程序先找到你的数据存储的目录
-
开始遍历处理(规划切片)目录下的每一个文件
-
遍历第一个文件ss.txt(300M)
-
获取文件大小fs.sizeOf(ss.txt)
-
计算切片大小
computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M
-
默认情况下,切片大小=blocksize
-
开始切,形成第一个切片:ss.txt---0:128M 第二个切片ss.txt---128:256M 第三切片ss.txt---256M:300M(每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就切分一块切片)
-
将切片信息写到一个切片规划文件中,
-
整个切片的核心过程在getSplit()方法中完成
-
InputSplit只记录了切片的元数据信息,比如起始位置、长度以及所在的节点列表等。
-
-
提交切片规划文件到YARN上,YARN上的MrAppMaster就可以根据切片规划文件计算开启MapTask个数
FileInputFormat切片机制
-
切片机制
-
简单地按照文件的内容长度进行切片
-
切片大小,默认等于Block大小
-
切片时不考虑数据集整体,而是逐个针对每个文件单独切片
-
-
案例分析
-
输入两个文件:file1.text 320M ,file2.txt 10M
-
经过FileInputFormat的切片机制运算后,形成的切片信息如下:
file1.text.split1-- 0~128
file1.text.split2-- 128~256
file1.text.split3-- 256~320
file2.text.split1-- 0~10
-
-
源码中计算切片大小的公式
Math.max(minSize,Math.min(maxSize,blocksize));
mapreduce.input.fileinputformat.split.minsize=1 默认值为1
mapreduce.input.fileinputformat.split.maxsize=Long.MAXValue 默认值Long.MAXValue
因此,默认情况下,切片大小=blocksize。
-
切片大小设置
maxsize(切片最大值):参数如果调得比blockSize小,则会让切片变小,而且就等于配置的这个参数
minsize(切片最小值):参数调的比blockSize大,则可以让切片变得比blockSize还大
-
获取切片信息API
//获取切片的文件名称
String name = inputSplit.getPath().getName();
//根据文件类型获取切片信息
FileSplit inputSplit = (FileSplit)context.getInputSplit();
CombineTextInputFormat切片机制
-
框架默认的TextInputFormat切片机制时对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。
-
应用场景:
CombineTextInputFormat用于小分件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。