一、MapReduce 架构
HDFS 的基本单位:block,默认64M。
TaskTracker 上的计算资源单位:slot (CPU、内存等)
MapReduce 的处理单位:split (每个split交给1个Map Task,split 包含了数据起始位置、数据长度、数据所在点等元数据信息)
二、Mapreduce Job的作业周期
(1)、Job 提交与初始化
(2)、Task 调度与监控
(3)、Task 运行环境准备(JVM 启动和资源隔离)
(4)、Task 执