不多说,直接上干货!
PTransform数据处理
PTransform对PCollection进行并行处理,每次处理1条,例如Filter过滤、Groupby分组、Combine统计、Join关联等等,还允许根据业务逻辑编写ParDo。Apache Beam借鉴了函数式编程的不可变性,PTransform不会改变原始的数据集PCollection,而是生成一个新的PCollection。看起来似乎是低效的一种做法,但是带来了容易测试、容易优化、容易并行计算的好处。