zoukankan      html  css  js  c++  java
  • Beam概念学习系列之PCollection数据集

      不多说,直接上干货!

    PCollection数据集

          PCollection是Apache Beam中数据的不可变集合可以是有限的数据集合也可以是无限的数据集合

      有限数据集,这种一般对应的是批处理,无限数据集数据持续不断的产生,只要系统不停止数据就持续产生下去,无法知道数据在什么时候结束,对应的是流处理。PCollection是将两种数据集统一的一种数据表达方式,PCollection还是一种分布式的数据集,其中的P表示数据集可以被并行处理。

          在Apache Beam中PCollection的特点:

    1. 不可变性:PCollection不能被修改
    2. 不可随机读取:PCollection只能顺序读取,且只能读取1次。
    3. 时间戳:PCollection的数据,每一条都带有时间。
  • 相关阅读:
    Daily Scrum 12.16
    Daily Scrum 12.15
    Daily Scrum 12.14
    Daily Scrum 12.12
    Daily Scrum 12.11
    Pipeline组Beta版本发布说明
    Pipeline组项目Postmortem
    Pipeline组Alpha版本发布说明
    Pipeline组测试说明
    Daily Scrum 11.6
  • 原文地址:https://www.cnblogs.com/zlslch/p/7609482.html
Copyright © 2011-2022 走看看