1,Mapper方法:如果在map方法之前执行一些程序用setup,之后用cleanup.同理在Reducer方法中也有setup和cleanup。
2,map任务是并行执行,没有谁先谁后,如果是两个job,则只能覆盖setup方法。
3,有几个block就有几个map任务。
4,当block的大小和InputSplit大小一致的情况下,data local的map任务数量才最多。
5,批处理的意思是执行过程中无法干预程序,只能直接杀死程序。
6,主节点在ApplicationMaster上。
7,java也可以获取内存信息,进程信息。
8,map产生的结果是放在Linux上而不是HDFS上。
9,reduce和map任务不在一起的话,他们之间的数据通过网络传输。
10,yarn 的调用机制: