背景
之前使用Docker swam 在不同的服务器 (docker host) 上面创建了service,他们之间的container通过overlay的网络通信。 昨天由于公司网络维护,其中一台服务器(我们简称 manager node)由于需要维护,暂时无法连接(大概持续了6个小时)。今天再过来,就发现container之间的通信出了问题...
分析问题
1. 首先从物理机器以及网络层面入手,检查了两台服务器彼此间的网络连接,发现没有问题。
2. 进入(work node), 发现其中的 container 里面已经无法连接到(manager node)上面的 container。
3. 在 node 之间重新创建Overlay network,并在其中建立containers(我这里使用busybox来试验),发现也无法相互通信。
解决问题
1. worker node 重新加入 swarm
#docker swarm join --token SWMTKN-1-23xxxxxxxxxxxxxxxxxxxxxxxxx <managernode-ip> 2377
2. 重新启动container
docker restart <container-name>
3. 进入 container 测试网络连接
#nslookup managerbusybox
发现可以找到指定的container,container之间的通信问题解决!
重新调用shell脚本启动服务,OK,一切恢复正常 :)
PS. 有一个奇怪的地方就是,使用命令查看swarm node 的情况:
#docker node ls
返回的 nodes 都是 active 的状态,但是事实上,彼此之前的网络通信已经出现了问题。。。这一点有点令人费解,不知道是不是bug →_→
希望有明白的童鞋可以给出解析,在此谢过!!