1、区分
数据块: 物理数据切片: 逻辑
2、决定机制
1、一个Job的Map阶段并行度(数量)由客户端提交Job时的切片数量决定2、一个切片对应一个MapTask3、默认情况下,切片大小==BlockSize(128M)4、切片时不考虑数据集整体性,而是针对每个文件单独切片总结:MapTask的数量,由客户端逻辑切片的数量决定,切片的大小默认为128M,每个文件的切片是独立的。不用考虑整体数据