不多说,直接上干货!
Apache Beam抽象模型
计算机最简单的抽象模型是输入+计算+输出。对于数据处理类的应用来说,将计算的部分展开,变成了 数据输入 + 数据集 + 数据处理 + 数据输出 = 数据处理流程。
图1 数据处理流程
在Apache Beam中对应如下:
IO Source/Sink数据输入/输出
Input和Output对应于Beam中的Source和Sink。
Source从外部数据源读入数据,例如数据库、NoSql、文件系统、消息中间件等。读取完的数据被表示为PCollection。
Sink将处理的结果PCollection输出到外部数据存储中,或者其他的应用系统。