zoukankan      html  css  js  c++  java
  • 【大数据技术】Flink

    “下一代大数据处理引擎王者” Apache Flink

    它既能保证数据一致性“Exactly Once",又能实时快速的处理海量数据。与生俱来的 Watermark 功能让它能对复杂数据乱序场景应对自如,它充分体现了“批”、“流”一体的完美结合同时又代表着“流”、“表”二象性的和谐统一。

    两种数据集:无边界数据集(连续不断追加)和有边界数据集

    两种执行模式 

    - 流式传输(Streaming) :只要数据生成,连续执行的处理 

    - 批处理(Batch):在有限的时间内执行并运行到完整的处理,完成后释放计算资源

    使用任一类型的执行模型来处理任一类型的数据集都是可能的,但不一定是最优的。
    Flink依赖于流式处理模型,这是一种适用于处理无界数据集的流程:流执行是对连续生成的数据进行连续处理。

    Flink是分布式流处理的开源框架:

    提供准确的结果,即使在无序或延迟数据的情况下也是如此

    具有状态和容错能力,可以在保持应用状态的同时无故障地从故障中恢复

    大规模执行,在数千个节点上运行,具有非常好的吞吐量和延迟特性

    状态管理,无序数据处理,灵活的窗口 - 对于Flink来说在无界数据集上计算的结果准确性至关重要.

    Flink保证用于状态计算的一次性语义。“有状态”意味着应用程序可以维护一段时间内已处理的数据的聚合或汇总,Flink的检查点机制可以确保在发生故障时应用程序状态的一致性语义。

    Flink支持流处理和窗口与事件时间语义,事件时间使得计算准确的结果变得容易,这些流可能产生无序数据或者数据延迟到达的情况。

    除了数据驱动的窗口之外,Flink还支持基于时间,计数或会话的灵活窗口。Windows可以通过灵活的触发条件进行定制,以支持复杂的流式传输模式。Flink的窗口使得可以对创建数据的环境的现实进行建模。

    参考文档

    Flink简介

  • 相关阅读:
    rsync特性
    01 什么是爬虫
    celery的使用
    redis的使用
    GIT使用大全
    多项式的高级运算
    SP1557 GSS2
    题解 CF997E 【Good Subsegments】
    P3920 [WC2014]紫荆花之恋
    题解 P3750 【[六省联考2017]分手是祝愿】
  • 原文地址:https://www.cnblogs.com/badboy200800/p/9992961.html
Copyright © 2011-2022 走看看