逻辑执行图指一组rdd以及其依赖关系。
1.明确边界
逻辑执行图起始于第一个入口rdd创建,
逻辑执行图结束于Action算子执行之前,
主要的过程是生成一组相互有依赖关系的rdd,并不会真正执行,只是表示rdd之间关系,数据流转过程。
2.rdd如何生成
1.读取数据源生成
2.自定义集合生成
3.由rdd转换生成另一组rdd生成
3.rdd之间依赖关系
rdd之间的依赖关系不是指rdd之间关系,而是分区之间关系。
一对一:map,flatMap
多对一:reduceByKey
宽窄依赖:如果分区间是一对一则是窄依赖;如果分区间是多对一并且有数据分发则是宽依赖shuffle。