Flink：状态一致性

zoukankan html css js c++ java

Flink：状态一致性
状态一致性概念和分类

概念

有状态的流处理，内部每个算子任务都可以有自己的状态

对于流处理器内部来说，所谓的状态一致性，其实就是我们所说的计算结果要保证准确。

一条数据不应该丢失，也不应该重复计算。

在遇到故障时可以恢复状态，恢复以后的重新计算，结果应该也是完全正确的。

分类
- AT-MOST-ONCE（最多一次）：当任务故障时，最简单的做法是什么都不干，既不恢复丢失的状态，也不重播丢失的数据。At-most-once 语义的含义是最多处理一次事件。
- AT-LEAST-ONCE（至少一次）：在大多数的真实应用场景，我们希望不丢失事件。这种类型的保障称为 at-least-once，意思是所有的事件都得到了处理，而一些事件还可能被处理多次。
- EXACTLY-ONCE（精确一次）：恰好处理一次是最严格的保证，也是最难实现的。恰好处理一次语义不仅仅意味着没有事件丢失，还意味着针对每一个数据，内部状态仅仅更新一次。
端到端状态一致性

一致性检查点（Checkpoint）

Flink 使用了一种轻量级快照机制 —— 检查点（checkpoint）来保证 exactly-once 语义。

有状态流应用的一致检查点，其实就是：所有任务的状态，在某个时间点的一份拷贝（一份快照）。而这个时间点，应该是所有任务都恰好处理完一个相同的输入数据的时候。

应用状态的一致检查点，是 Flink 故障恢复机制的核心。

端到端（end-to-end）状态一致性

目前我们看到的一致性保证都是由流处理器实现的，也就是说都是在 Flink 流处理器内部保证的；而在真实应用中，流处理应用除了流处理器以外还包含了数据源（例如 Kafka）和输出到持久化系统

端到端的一致性保证，意味着结果的正确性贯穿了整个流处理应用的始终；每一个组件都保证了它自己的一致性。

整个端到端的一致性级别取决于所有组件中一致性最弱的组件。

事务写入

预写日志（Write-Ahead-Log，WAL）、

把结果数据先当成状态保存，然后在收到 checkpoint 完成的通知时，一次性写入 sink 系统。

简单易于实现，由于数据提前在状态后端中做了缓存，所以无论什么 sink 系统，都能用这种方式一批搞定。

DataStream API 提供了一个模板类：GenericWriteAheadSink，来实现这种事务性 sink。

两阶段提交-2PC

对于每个 checkpoint，sink 任务会启动一个事务，并将接下来所有接收的数据添加到事务里

然后将这些数据写入外部 sink 系统，但不提交它们 —— 这时只是“预提交”

当它收到 checkpoint 完成的通知时，它才正式提交事务，实现结果的真正写入

这种方式真正实现了 exactly-once，它需要一个提供事务支持的外部 sink 系统。Flink 提供了 TwoPhaseCommitSinkFunction 接口。

2PC 对外部 sink 系统的要求：
- 外部 sink 系统必须提供事务支持，或者 sink 任务必须能够模拟外部系统上的事务
- 在 checkpoint 的间隔期间里，必须能够开启一个事务并接受数据写入
- 在收到 checkpoint 完成的通知之前，事务必须是“等待提交”的状态。在故障恢复的情况下，这可能需要一些时间。如果这个时候sink系统关闭事务（例如超时了），那么未提交的数据就会丢失。
- sink 任务必须能够在进程失败后恢复事务。
- 提交事务必须是幂等操作。
Flink+Kafka 实现端到端的 exactly-once 语义

我们知道，端到端的状态一致性的实现，需要每一个组件都实现，对于 Flink + Kafka 的数据管道系统（Kafka 进、Kafka 出）而言，各组件怎样保证 exactly-once 语义呢？
- 内部 —— 利用 checkpoint 机制，把状态存盘，发生故障的时候可以恢复，保证内部的状态一致性
- source —— kafka consumer 作为 source，可以将偏移量保存下来，如果后续任务出现了故障，恢复的时候可以由连接器重置偏移量，重新消费数据，保证一致性
- sink —— kafka producer 作为 sink，采用两阶段提交 sink，需要实现一个 TwoPhaseCommitSinkFunction
我们知道 Flink 由 JobManager 协调各个 TaskManager 进行 checkpoint 存储， checkpoint 保存在 StateBackend 中，默认StateBackend 是内存级的，也可以改为文件级的进行持久化保存。

当 checkpoint 启动时，JobManager 会将检查点分界线（barrier）注入数据流； barrier 会在算子间传递下去。

每个算子会对当前的状态做个快照，保存到状态后端。对于 source 任务而言，就会把当前的 offset 作为状态保存起来。下次从 checkpoint 恢复时，source 任务可以重新提交偏移量，从上次保存的位置开始重新消费数据。

每个内部的 transform 任务遇到 barrier 时，都会把状态存到 checkpoint 里。

ink 任务首先把数据写入外部 kafka，这些数据都属于预提交的事务（还不能被消费）；当遇到barrier 时，把状态保存到状态后端，并开启新的预提交事务。

当所有算子任务的快照完成，也就是这次的 checkpoint 完成时，JobManager 会向所有任务发通知，确认这次 checkpoint 完成。

当 sink 任务收到确认通知，就会正式提交之前的事务，kafka 中未确认的数据就改为“已确认”，数据就真正可以被消费了。

所以我们看到，执行过程实际上是一个两段式提交，每个算子执行完成，会进行“预提交”，直到执行完 sink 操作，会发起“确认提交”，如果执行失败，预提交会放弃掉。

具体的两阶段提交步骤总结如下：
- 第一条数据来了之后，开启一个 kafka 的事务（transaction），正常写入 kafka 分区日志但标记为未提交，这就是“预提交”
- jobmanager 触发 checkpoint 操作，barrier 从 source 开始向下传递，遇到 barrier 的算子将状态存入状态后端，并通知 jobmanager
- sink 连接器收到 barrier，保存当前状态，存入 checkpoint，通知 jobmanager，并开启下一阶段的事务，用于提交下个检查点的数据
- jobmanager 收到所有任务的通知，发出确认信息，表示 checkpoint 完成
- sink 任务收到 jobmanager 的确认信息，正式提交这段时间的数据
- 外部 kafka 关闭事务，提交的数据可以正常消费了。
所以我们也可以看到，如果宕机需要通过 StateBackend 进行恢复，只能恢复所有确认提交的操作。
查看全文

相关阅读:
bzoj 4883 [Lydsy1705月赛]棋盘上的守卫——并查集(思路!)
洛谷 1979 华容道——最短路+dp
51nod 1443 路径和树——最短路生成树
 hdu 2222 Keywords Search——AC自动机
 bzoj 2067 [Poi2004]SZN——二分+贪心
 洛谷 1084 疫情控制——二分答案+贪心(贪心思路！)
CF 1042A Benches——二分答案（水题）
洛谷 1314 聪明的质监员——二分答案
 洛谷P3690 LCT模板
 bzoj1875 [SDOI2009]HH去散步——矩阵快速幂

原文地址：https://www.cnblogs.com/wwjj4811/p/15251554.html

Flink：状态一致性

状态一致性概念和分类

概念

分类

端到端状态一致性

一致性检查点（Checkpoint）

端到端（end-to-end）状态一致性

事务写入

预写日志（Write-Ahead-Log，WAL）、

两阶段提交-2PC

Flink+Kafka 实现端到端的 exactly-once 语义