Spark Master主备切换主要有两种机制,之中是基于文件系统,一种是基于Zookeeper.基于文件系统的主备切换机制需要在Active Master挂掉后手动切换到Standby Master上,而基于Zookeeper的主备切换机制可以实现自动切换Master。
切换流程图
流程说明:
Standby Master模式
1. 使用持久化引擎读取持久化的storeApps、storeDrivers、storeWorkers,持久化引擎有FileSystemPersistenceEngine和ZookeeperPersistenceEngine
2. 判读如果storedApps、storedDrivers、store的Workers有任何一个非空就继续向后执行.
3. 持久化引擎的Application、Driver、Worker的信息重新注册到Master内部的内存缓存结构中
4. 将Application和Worker的状态都修改为UNKONWN,然后向Application所对应的Driver及Worker发送Standby Master的地址
5. Driver和Worker在接收到Master发送的地址后,返回响应消息给新的Master
6. Master在陆续收到Driver和Worker发送来的响应消息后,会使用completeRecovery()方法对没有发生响应消息的Driver和Worker进行处理,过滤掉它们的信息。
7. 最后调用Master的schedule()方法,对正在等待资源调度的Driver和Application进行调度,比如在某个Worker上启动Driver或者为Application在Worker上启动它的Executor.
源码分析
创建持久化引擎
入口文件包名:org.apache.spark.deploy.master
创建持久化引擎在preStart()方法中,通过spark.deploy.recoveryMode配置参数确定持久化引擎的类别,缺省值为none.
持久化数据的处理
completeRecovery方法分析
功能:
将Application和Worker过滤出来目前的状态,如果是UNKNOWN的进行遍历,分别调用removeWorker和finishApplication方法,对可能已经故障或者已经死掉的Application和Worker进行清理。
清理过程:1、从内存缓存结构中移除。2、从相关的组件的内存中移除。3、从持久化存储中移除。