状态如何保存和恢复
1.定时制作分布式快照,对程序中的状态进行备份
2.发生故障时:
将整个作业中所有的task都回滚到最后一次成功的checkpoint中的状态,然后从那个点开始执行;
3.必要条件:数据支持重发的
4.一致性语句:恰好一次, 至少一次
checkpoint执行机制
1.checkpoint coordinate向所有的source发送trigger checkpoint
2.所有的task接收到barrier后,会执行快照,并将自己的输出传递到新的barrier,将自己的状态持久化。
3.当task完成备份之后,会将数据地址通知checkpoint coordinate。