6.13周日傍晚平台不可用,发现nginx挂了,恢复nginx,很快又挂了
服务正常,机器df -h无响应
后面ceph -s异常
发现是mon down了
先恢复mon,再恢复集群
systemctl reset-failed ceph-mon@node2
备注:node2是mon的节点名称
恢复集群,可以了
后期改进:mon目前是单节点,单点故障
改为至少3个mon,保障高可用