2020.5.6更,flannel CrashLoopBackOff
不知道是多节点k8s集群的通病,还是因为是公网部署的缘故,使用flannel时可能出现CrashLoopBackOff的错误,网上找到的个人觉得应该可行的解决方案(几台服务器都过期没续费,没空测试):
- kubernetes使用flannel网络插件服务状态显示CrashLoopBackOff
- Kubernetes pod状态出现CrashLoopBackOff 的原因
- K8s问题【flannel一直重启问题,CrashLoopBackOff】
其它方案自行百度,注意查看报错信息是否与百度到的解决方案一致。
2020.4.12更,此贴作废
这是之前刚开始玩k8s时候写的,那时候对k8s理解不够深入,随便捣鼓几台学生机玩玩就算是入门了。后来一直没空再学习就放下来了,这几天稍微有点儿空,又折腾了下,发现k8s没那么简单。
虽然修改etcd可以通过公网ip部署集群,而且可以运行应用,但是集群节点信息里是没有公网ip的,而且貌似k8s是让kubelet直接与apiserver通过内网通信的,使用kubectl log等命令时还是用的内网IP,所以会提示timeout。要想真正实现公网ip部署k8s还是配置iptables进行重定向或其它更专业的方式。传送门1 传送门2
贴就不删了,给有需要的孩纸提供点而思路,不用走那么多弯路。
更新
以下方法比较笨拙,实用性不高,这里贴出知乎上一位大佬的文章——Kubernetes——部署基于公网的k8s集群
大佬给出的解决方案有两种,一是虚拟出一个绑定公网IP的网卡;二是使用k8s v1.8.0 + 版本引入的分段初始化方法,在初始化etcd的时候指定配置文件——传送门——kubeadm init phase;
公网部署的资料少得可怜,当初在找资料的时候,百度、谷歌、官网翻了好久,居然没发现这篇文章。。。ε=(´ο`*)))唉。
===2020.4.6更
背景
一般情况下,"kubeadm"部署集群时指定"--apiserver-advertise-address=<public_ip>"参数,即可在其他机器上,通过公网ip join到本机器,然而,阿里云ecs里没配置公网ip,etcd会无法启动,导致初始化失败。
环境、工具
阿里云ECS学生机、ECS对应的公网ip、kubeadm1.15.4、kubelet1.15.4、kubectl1.15.4、ubuntu18.04.3、linux4.15.0-66-generic、docker18.9.7
步骤
准备
该实现需要在kubeadm初始化过程中对etcd进行修改,而kubeadm初始化是阻塞的,因此,需要建立两个ssh对话,即用ssh工具新建两个标签,一个用来初始化节点,另一个在初始化过程中修改配置文件。注意是初始化过程中,每次运行kubeadm init,kubeadm都会生成etcd的配置文件,如果提前修改了配置文件,在运行kubeadm init时会把修改的结果覆盖,那么也就没有作用了。
运行kubeadm
输入命令"kubeadm init --kubernetes-version=<your_versin> --apiserver-advertise-address=<public_ip>"
此时会卡在
[wait-control-plane] Waiting for the kubelet to boot up the control plane as static Pods from directory "/etc/kubernetes/manifests". This can take up to 4m0s
[kubelet-check] Initial timeout of 40s passed.
修改etcd.yaml
在输入上述命令后,kubeadm即开始了master节点的初始化,但是由于etcd配置文件不正确,所以etcd无法启动,要对该文件进行修改。
文件路径"/etc/kubernetes/manifests/etcd.yaml"。
修改前
修改后
此处"xxx"为公网ip,要关注的是"--listen-client-urls"和"--listen-peer-urls"。需要把--listen-client-urls 和 --listen-peer-urls 都改成0.0.0.0:xxx
旧: 需要把"--listen-client-urls"后面的公网ip删除,把"--listen-peer-urls"改为本地的地址。
连接master节点
稍等片刻之后,master节点就初始化好了
拷贝"root"后面的连接token,在其他服务器,如腾讯云或阿里云ecs上就可以join这台master。
此时再安装好网络插件即可
过程记录
-
当指定"--apiserver-advertise-address"为公网ip时,kubeadm会在"[kubelet-check] Initial timeout of 40s passed."后卡很长时间,然后提示说初始化失败:
-
查看kubelet日志,未发现有价值的错误提示。于是进行了第二次尝试,并新建了一个ssh对话,用来查看在初始化的时候docker容器的状态。
-
发现etcd的容器处于退出状态:
-
于是对该容器打个log:
显示无法指定ip,ip为公网ip -
查看kubeadm生成的etcd配置文件,"xxx"为我的公网ip:
发现kubeadm自动把"--listen-peer-urls"改为了kubeadm初始化时指定的"--apiserver-advertise-address",即公网ip,而且"--listen-client-urls=",后面也加上了公网ip。这两个参数大概意思是指定要监听的ip地址,而阿里云学生机ecs的网卡没有配置公网ip,因此就无法指定该ip,导致etcd无法正常启动。对其进行修改即可,经测试,worker node 可以通过指定的公网ip join到master node,可以完成项目部署。