一、背景
公司进行kubernetes服务重启演练,集群重启后所有服务正常,仅node2节点处于notready状态
二、排查过程
- 查看对应节点的详细信息,发现kubelet一直处于starting状态
- 登录对应节点,查看kubelet的ERROR日志
- 进行各种资料查看无果
- 逐条读解日志,发现日志中F级别的日志有报错信息,监听地址无法正确返回(ip不正确)
- 查看kubelet配置文件,copy的配置ip没改(尴尬)
- 修改ip后重启恢复
三、总结重点
- 做事要细心哇
- kubelet的危险日志是F级别
- 日志不能直接grep error看(会遗漏部分关键信息)
- 对机器的ip要有敏感度!