之前介绍了Docker管理工具-Swarm部署记录,这里简单总结下Docker Swarm的日常维护命令,以作为平时运维笔记.
Swarm作为一个管理Docker集群的工具,首先需要将其部署起来,可以单独将Swarm部署于一个节点。另外,自然需要一个Docker集群,集群上每一个节点均安装有Docker。具体的Swarm架构图可以参照下图:
Swarm架构中最主要的处理部分自然是Swarm节点,Swarm管理的对象自然是Docker Cluster,Docker Cluster由多个Docker Node组成,而负责给Swarm发送请求的是Docker Client。Swarm架构图可以让大家对Swarm有一个初步的认识,比如Swarm的具体工作流程:Docker Client发送请求给Swarm;Swarm处理请求并发送至相应的Docker Node;Docker Node执行相应的操作并返回响应。除此之外,Swarm的工作原理依然还不够明了。深入理解Swarm的工作原理,可以先从Swarm提供的命令入手。Swarm支持的命令主要有4个:swarm create、swarm manage、swarm join、swarm list。当然还有一个swarm help命令,该命令用于指导大家如何正确使用swarm命令.
swarm create
Swarm中swarm create命令用于创建一个集群标志,用于Swarm管理Docker集群时,Docker Node的节点发现功能。发起该命令之后,Swarm会前往Docker Hub上内建的发现服务中获取一个全球唯一的token,用以唯一的标识Swarm管理的Docker集群。
swarm manage
Swarm中swarm manage是最为重要的管理命令。一旦swarm manage命令在Swarm节点上被触发,则说明用户需要swarm开始管理Docker集群。从运行流程的角度来讲,swarm经历的阶段主要有两点:启动swarm、接收并处理Docker集群管理请求。
Swarm启动的过程包含三个步骤:
► 发现Docker集群中的各个节点,收集节点状态、角色信息,并监视节点状态的变化;
► 初始化内部调度(scheduler)模块;
► 创建并启动API监听服务模块;
第一个步骤,Swarm发现Docker集群中的节点。发现(discovery)是Swarm中用于维护Docker集群状态的机制。既然涉及到发现(discovery),那在这之前必须先有注册(register)。Swarm中有专门负责发现(discovery)的模块,而关于注册(register)部分,不同的discovery模式下,注册(register)也会有不同的形式。
目前,Swarm中提供了5种不同的发现(discovery)机制:Node Discovery、File Discovery、Consul Discovery、EtcD Discovery和Zookeeper Discovery。
第二个步骤,Swarm内部的调度(scheduler)模块被初始化。swarm通过发现机制发现所有注册的Docker Node,并收集到所有Docker Node的状态以及具体信息。此后,一旦Swarm接收到具体的Docker管理请求,Swarm需要对请求进行处理,并通过所有Docker Node的状态以及具体信息,来筛选(filter)决策到底哪些Docker Node满足要求,并通过一定的策略(strategy)将请求转发至具体的一个Docker Node。
第三个步骤,Swarm创建并初始化API监听服务模块。从功能的角度来讲,可以将该模块抽象为Swarm Server。需要说明的是:虽然Swarm Server完全兼容Docker的API,但是有不少Docker的命令目前是不支持的,毕竟管理Docker集群与管理单独的Docker会有一些区别。当Swarm Server被初始化并完成监听之后,用户即可以通过Docker Client向Swarm发送Docker集群的管理请求。
Swarm的swarm manage接收并处理Docker集群的管理请求,即是Swarm内部多个模块协同合作的结果。请求入口为Swarm Server,处理引擎为Scheduler,节点信息依靠Disocovery。
swarm join
Swarm的swarm join命令用于将Docker Node添加至Swarm管理的Docker集群中。从这点也可以看出swarm join命令的执行位于Docker Node,因此在Docker Node上运行该命令,首先需要在Docker Node上安装Swarm,由于该Swarm只会执行swarm join命令,故可以将其当成Docker Node上用于注册的agent模块。
功能而言,swarm join可以认为是完成Docker Node在Swarm节点处的注册(register)工作,以便Swarm在执行swarm manage时可以发现该Docker Node。然而,上文提及的5种discovery模式中,并非每种模式都支持swarm join命令。不支持的discovery的模式有Node Discovery与File Discovery。
Docker Node上swarm join执行之后,标志着Docker Node向Swarm注册,请求加入Swarm管理的Docker集群中。Swarm通过注册信息,发现Docker Node,并获取Docker Node的状态以及具体信息,以便处理Docker请求时作为调度依据。
swarm list
Swarm中的swarm list命令用以列举Docker集群中的Docker Node。Docker Node的信息均来源于Swarm节点上注册的Docker Node。而一个Docker Node在Swarm节点上注册,仅仅是注册了Docker Node的IP地址以及Docker监听的端口号。
使用swarm list命令时,需要指定discovery的类型,类型包括:token、etcd、file、zk以及。而swarm list并未罗列Docker集群的动态信息,比如Docker Node真实的运行状态,或者Docker Node在Docker集群中扮演的角色信息。
==========================下面简单梳理了一些日常运维中用到的Swarm相关命令=============================
1) 初始化swarm manager并制定网卡地址 # docker swarm init --advertise-addr 182.48.115.237 2) 删除集群,强制退出需要加–force (针对manager节点). 到各个节点上执行退出集群的命令 # docker node rm swarm-node1 # docker swarm leave --force //manager节点退出集群,需要加--force 3) 查看swarm worker的连接令牌 # docker swarm join-token worker 例如: [root@manager-node ~]# docker swarm init --advertise-addr 182.48.115.237 Swarm initialized: current node (1gi8utvhu4rxy8oxar2g7h6gr) is now a manager. To add a worker to this swarm, run the following command: docker swarm join --token SWMTKN-1-4roc8fx10cyfgj1w1td8m0pkyim08mve578wvl03eqcg5ll3ig-f0apd81qfdwv27rnx4a4y9jej 182.48.115.237:2377 To add a manager to this swarm, run 'docker swarm join-token manager' and follow the instructions. 4) 加入docker swarm集群,作为worker节点 利用上面执行结果中的命令放在其他节点上执行,则该节点加入到swarm集群中作为worker节点 [root@node1 ~]# docker swarm join --token SWMTKN-1-4roc8fx10cyfgj1w1td8m0pkyim08mve578wvl03eqcg5ll3ig-f0apd81qfdwv27rnx4a4y9jej 182.48.115.237:2377 This node joined a swarm as a worker. 5) 查看swarm manager的连接令牌 # docker swarm join-token manager 例如: [root@swarm-manager-node ~]# docker swarm join-token manager To add a manager to this swarm, run the following command: docker swarm join --token SWMTKN-1-075gaitl18z3v0p37sx7i5cmvzjjur0fbuixzp4tun0xh0cikd-0y8ttp5h0g54j10amn670w6su 172.16.60.220:2377 6) 加入docker swarm集群,作为manager节点 利用上面执行结果中的命令放在其他节点上执行,则该节点加入到swarm集群中作为manager管理节点,状态为reachable. [root@swarm-manager-node2 ~]# docker swarm join --token SWMTKN-1-075gaitl18z3v0p37sx7i5cmvzjjur0fbuixzp4tun0xh0cikd-0y8ttp5h0g54j10amn670w6su 172.16.60.220:2377 This node joined a swarm as a manager. [root@swarm-manager-node2 ~]# docker node ls ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS rpbey5t1v14olke2mgtc430de swarm-node2 Ready Active u6gkfr4j19gq16ddyb76fxsl3 swarm-node1 Ready Active vwbb0imil512a1le04bnkx98u * swarm-manager-node Ready Active Leader ybjvaszg838upeqvvzswhq0tt swarm-manager-node2 Ready Active Reachable 如果之前的leader状态的manager管理节点挂了后(假如systemctl stop docker, 然后再systemctl start docker), 则新加入的manager节点状态由reachable变为leader, 之前的manager节点状态为unreachable. [root@swarm-manager-node2 ~]# docker node ls ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS rpbey5t1v14olke2mgtc430de swarm-node2 Ready Active u6gkfr4j19gq16ddyb76fxsl3 swarm-node1 Ready Active vwbb0imil512a1le04bnkx98u * swarm-manager-node Ready Active Unreachable ybjvaszg838upeqvvzswhq0tt swarm-manager-node2 Ready Active Leader 7) 使旧令牌无效并生成新令牌 # docker swarm join-token --rotate 8) 查看集群中的节点 # docker node ls 9) 查看集群中节点信息 # docker node inspect swarm-node1 --pretty 10) 调度程序可以将任务分配给节点 # docker node update --availability active swarm-node1 11) 调度程序不向节点分配新任务,但是现有任务仍然保持运行 # docker node update --availability pause swarm-node1 12) 调度程序不会将新任务分配给节点。调度程序关闭任何现有任务并在可用节点上安排它们. 也就是线下节点,不参与任务分配. # docker node update --availability drain swarm-node1 13) 添加节点标签 # docker node update --label-add label1 --label-add bar=label2 swarm-node1 14) 删除节点标签 # docker node update --label-rm label1 swarm-node1 15) 将worker节点升级为manager节点 # docker node promote swarm-node1 16) 将manager节点降级为worker节点 # docker node demote swarm-manager-node 17) 查看服务列表 # docker service ls 18) 查看服务的具体信息 # docker service ps my-test 19) 创建一个不定义name,不定义replicas的服务. (如下的nginx是docker的nginx镜像名称,不是服务名称) # docker service create nginx 20) 创建一个指定name的服务 # ocker service create --name my-nginx nginx 21) 创建一个指定name、run cmd的服务 # docker service create --name my-nginx nginx ping www.baidu.com 22) 创建一个指定name、version、run cmd的服务 # docker service create --name my-redis redis:3.0.6 # docker service create --name my-nginx nginx:1.8 /bin/bash 23) 创建一个指定name、port、replicas的服务 # docker service create --name my-nginx --replicas 3 -p 80:80 nginx 24) 为指定的服务更新一个端口 # docker service update --publish-add 80:80 my-nginx 25) 为指定的服务删除一个端口 # docker service update --publish-rm 80:80 my-nginx 26) 将redis:3.0.6更新至redis:3.0.7 # docker service update --image redis:3.0.7 redis 27) 配置运行环境,指定工作目录及环境变量 # docker service create --name my-nginx --env MYVAR=myvalue --workdir /data/www --user my_user nginx ping www.baidu.com 28) 创建一个my-nginx的服务 # docker service create --name my-nginx nginx ping www.baidu.com 29) 更新my-nginx服务的运行命令 # docker service update --args "ping www.baidu.com" my-nginx 30) 删除一个服务 # docker service rm my-nginx 31) 在每个群组节点上运行web服务 # docker service create --name tomcat --mode global --publish mode=host,target=8080,published=8080 tomcat:latest 32) 创建一个overlay网络 # docker network create --driver overlay my-network # docker network create --driver overlay --subnet 10.10.10.0/24 --gateway 10.10.10.1 haha-network 33) 创建服务并将网络添加至该服务 # docker service create --name my-test --replicas 3 --network my-network redis 34) 删除群组网络 # docker service update --network-rm my-network my-test 35) 更新群组网络 # docker service update --network-add haha-network my-test 36) 创建群组并配置cpu和内存 # docker service create --name my_nginx --reserve-cpu 2 --reserve-memory 512m --replicas 3 nginx 37) 更改所分配的cpu和内存 # docker service update --reserve-cpu 1 --reserve-memory 256m my_nginx 38) 创建服务时自定义的几个参数 指定每次更新的容器数量 --update-parallelism 指定容器更新的间隔 --update-delay 定义容器启动后监控失败的持续时间 --update-monitor 定义容器失败的百分比 --update-max-failure-ratio 定义容器启动失败之后所执行的动作 --update-failure-action 比如:创建一个服务并运行3个副本,同步延迟10秒,10%任务失败则暂停 # docker service create --name mysql_5_6_36 --replicas 3 --update-delay 10s --update-parallelism 1 --update-monitor 30s --update-failure-action pause --update-max-failure-ratio 0.1 -e MYSQL_ROOT_PASSWORD=123456 mysql:5.6.36 39) 回滚至之前版本 # docker service update --rollback mysql 自动回滚 如果服务部署失败,则每次回滚2个任务,监控20秒,回滚可接受失败率20% # docker service create --name redis --replicas 6 --rollback-parallelism 2 --rollback-monitor 20s --rollback-max-failure-ratio .2 redis:latest 40) 创建服务并将目录挂在至container中 # docker service create --name mysql --publish 3306:3306 --mount type=bind,src=/data/mysql,dst=/var/lib/mysql --replicas 3 -e MYSQL_ROOT_PASSWORD=123456 mysql:5.6.36 需要注意使用bind绑定宿主机目录会带来的风险 - 绑定的主机路径必须存在于每个集群节点上,否则会有问题; - 调度程序可能会在任何时候重新安排运行服务容器,如果目标节点主机变得不健康或无法访问; - 主机绑定数据不可移植,当你绑定安装时,不能保证你的应用程序开发方式与生产中的运行方式相同; 41) 添加swarm配置 # echo "this is a mysql config" | docker config create mysql - 42) 查看配置 # docker config ls 查看配置详细信息 # docker config inspect mysql 43) 删除配置 # docker config rm mysql 44) 添加配置 # docker service update --config-add mysql mysql 45) 删除配置 # docker service update --config-rm mysql mysql 46) 添加配置 # docker config create kevinpage index.html 47) 启动容器的同时添加配置(target如果报错,就使用dst或destination) # docker service create --name nginx --publish 80:80 --replicas 3 --config src=kevinpage,target=/usr/share/nginx/html/index.html nginx