chandy-lamport 分布式一致性快照算法详细介绍

zoukankan html css js c++ java

chandy-lamport 分布式一致性快照算法详细介绍

在一个分布式计算系统中，为了保证数据的一致性需要对数据进行一致性快照。Flink和spark在做流失计算的时候都借鉴了chandy-lamport算法的原理，这篇文章就是对chandy-lamport算法原理的详细介绍。

考虑一个分布式计算系统。

其中有两个节点，也就是两个进程，p和q，s0，s1对应的是两个状态。token是一个令牌，全局只有一个，进程之间互相发送令牌。s0对应的状态就是进程不持有令牌，s1对应的状态就是进程持有令牌。两个进程间的连线代表消息队列，token有可能处于消息队列之中，这时候两个进程都不拥有令牌，也就是都是s0状态。这个分布式系统就这件循环地传送令牌。

由于进程是可能崩溃的，我们需要保证在进程崩溃重启后，系统仍然能够正常运行，或者说我们要从某个检查点恢复程序的运行状态，这时就需要将系统在某个时间点的状态保存起来。也就是说我们需要对分布式系统进行一次快照存储，保存每个节点在当时的状态以及每个消息队列在当时的状态。举个例子，假如在上图右上角的时刻对系统进行一个快照存储，那么对应的状态就是：

p　 s0

q s0

p->q　 token

q->o empty

假如程序在此时崩溃了，那么在重启之后，就可以恢复到保存的快照状态继续执行。

可是由于p和q是两个进程，时间不同步，假如p进程在发送token之后进行了快照存储，q进程在p发送token之前进行快照存储，那么就会出现这种情况：

1：p进程保存快照的时候由于p进程已经发送了token，token在q进程的队列中，所以p进程保存快照时认定token不在p进程也不在p进程的接收队列中。

2：q进程保存快照时由于比p进程早一些，此时p进程还没有发送token，因此q进程认定token不在q进程也不在q进程的接收队列中。

这样保存的全局快照里发现token消失不见了。

为了解决这问题，chamdy-lamport算法提出了marker消息的概念：

在上图右上角中p发送完token后发起一次快照，发送marker给q，q接收到marker消息，保存本地状态，由于队列FIFO，所以q接收marker消息时肯定已经接收到了token，所以q保存自己状态为s1，保存p->q状态为empty，然后q发送marker给p，p接收到marker，检查在p保存状态后有没有收到q的消息，由于没有收到，所以保存q->p队列的状态为空。到此一轮快照保存结束，全局的状态为：

p s0

q s1

p->q empty

q->p empty

这个全局状态就对应的是上图右下角的状态，此时全局的一致性状态保存成功。

以上只是一个简单的例子，实际上chandy-lamport对算法的正确性有严格的公式推导，感兴趣可以参考https://lamport.azurewebsites.net/pubs/chandy.pdf

查看全文

相关阅读:
kubernetes---Init-Container
kubernetes---affinity--taint
kubernetes---pod调度
 kubernetes---项目部署
 StatefulSet
kubernetes---存储--PV--PVC
pod-pod控制器-service-ingress
jenkins
django中的验证码
 django中的缓存

原文地址：https://www.cnblogs.com/yuanyifei1/p/10360465.html

p	s0
q	s0
p->q	token
q->o	empty

p	s0
q	s1
p->q	empty
q->p	empty

chandy-lamport 分布式一致性快照 算法详细介绍

chandy-lamport 分布式一致性快照算法详细介绍