一、惰性机制
RDD的惰性机制:RDD在进行转换时,只记录转换的轨迹,不发生计算,直到遇到第一个动作类型操作时,才进行计算。
二、常用的转换操作
(1)filter
filter(func):提供一个函数,过滤掉不符合这个函数的元素,筛选出符合的并返回一个新的数据集
(2)map
map(func):做一个一对一的映射,将每个元素传到函数func中,并返回一个新的数据集
(3)flatMap
flatMap(func):与map()函数相类似,但每个元素都可以映射到0或多个输出结果
(4)groupByKey
groupByKey():应用于(key,value)的键值对时,根据key相同的元素进行分组,分组的结果是key不变,value变成一个列表
(5)reduceByKey
reduceByKey(func):应用于(key,value)的键值对时,在对相同的key进行分组后,将值传入func函数中进行汇总计算作为新的值,返回一个新的键值对
三、学习视频
https://www.bilibili.com/video/BV1oE411s7h7?p=24