七 Kafka Streams VS Consumer API

zoukankan html css js c++ java

七 Kafka Streams VS Consumer API

1 kafka Streams:

　概念：

处理和分析储存在Kafka中的数据，并把处理结果写回Kafka或发送到外部系统的最终输出点,它建立在一些很重要的概念上，比如事件时间和消息时间的准确区分，开窗支持，简单高效的应用状态管理.

　　*一个流（stream）是Kafka中最重要的抽象概念：它代表了一个无界，持续更新的数据集。一个流是一个有序，可重复读取，容错的不可变数据记录序列，一个数据记录被定义为一个键值对（key-value pair）。
　　*一个流处理应用，用Kafka Streams开发，定义了经过若干个处理拓扑（processor topologies）的计算逻辑，每个处理拓扑是一个通过流（线，edge）连接到流处理实例（点，node）的图。
　　*一个流处理实例（processor）是一个处理拓扑的节点；其含义是，通过从拓扑图中它的上游处理节点每次接收一条输入记录，执行一步流数据的变换，可能是请求操作流数据，也有可能随后生产若干条记录给到下游处理实例。

　　特点：

　　*支持本地状态容错，可以执行非常快速有效的有状态操作，比如joins和windowed aggregations（窗口聚合）。

　　*提供必要的流处理基础件，包括一个高级Streams DSL和一个底层处理API（Processor API）。

KStream类和KTable类:

　　KStream实例是一个记录流的抽象，记录流中每条数据记录代表了一个无界数据集中的一个独立数据。一个KTable实例是一个更新日志流的抽象，更新日志流中每一条数据代表了一个更新.

　　数据记录中的值代表了同一个记录关键字的最新更新值，如果有相同关键字记录的话（如果关键字不存在，那么更新动作会创建一个）。为了说明KStream和KTable的区别，我们有下面两个记录发往流：("alice", 1) --> ("alice", 3)。如果这两条记录保存在KStream实例，流处理应用累加他们的值会得到结果4。如果这两条记录保存在KTable实例，得到的结果是3，因为后一个记录会被当做是前一个记录的更新。

　　某个流处理过程可能需要把数据记录按时间分组，也就是按时间把流分为多个窗口。通过join和聚合操作会用到这个

　　一个join（合并）操作就是合并两个数据流，基于他们数据的键，然后生成一个新流。一个记录流上的join操作通常需要基于窗口操作（即分段执行），因为用于执行join操作的记录数量可能会无限增长

2 Kafka Streams 和 ConsumerAPI区别

　　Kafka Streams 包含了ConsumerAPI 和ProducerAPI的功能，并且增强了功能，就是流处理的功能。

　　

　　

查看全文

相关阅读:
python:（类）私有
 Python:多继承时的继承顺序
 python基础：继承
 年终总结
 cocos版本说明
 WPF学习系列游戏-选张图片做成9宫格拼图
 SmartAssembly使用失败记录
 WPF学习系列绘制旋转的立方体
 自适应布局思路
 webfrom 总结

原文地址：https://www.cnblogs.com/liufei1983/p/9770740.html