zoukankan      html  css  js  c++  java
  • Beam简介

    简介

    Apache Beam 是谷歌开源的统一批处理和流处理的编程模型和SDK。

    核心概念

    • Pipeline:管道是整个数据的处理流程,包括数据输入,转换,数据输出。每个程序必须创建Pipeline,并通过Pipeline指定执行Runner和执行方式等。
    • PCollection:Pipeline处理的的分布式数据集。数据集可以是有限的或是无限的,PCollection是Pipeline中每个步骤的输入和输出。
    • Transform:Pipeline中的数据处理操作或步骤。每个Transform将一个或多个PCollection对象作为输入,执行对该PCollection的元素提供的处理函数,并生成一个或多个输出PCollection对象。
    • I / O Source/Sink:数据的输入和输出IO。
    • Runner
    • ParDo:类似于Flink/Spark中Map操作的算子,一般会内嵌一个DoFn。
    • DoFn:Beam中ParDo中编写业务逻辑的对象。

    • ParDo
    • GroupByKey
    • CoGroupByKey
    • Combine
    • Flatten
    • Partition

    参考资料

    https://blog.csdn.net/ffjl1985/article/details/78055152

    https://beam.apache.org/documentation/programming-guide/#what-is-a-schema

    https://beam.apache.org/documentation/io/built-in/

  • 相关阅读:
    Ubuntu 各版本代号简介
    Ubuntu如何同步网络时间
    Ubuntu下修改DNS重启也能用的方法
    provider networks和self-service networks
    openstack 架构
    系统故障排除
    系统日志管理
    系统引导
    网络管理
    Linux下开启FTP服务
  • 原文地址:https://www.cnblogs.com/libin2015/p/13932877.html
Copyright © 2011-2022 走看看