【问题描述】
后台执行ceph -s 集群状态ERR,显示有1 pgs inconsistent,1 scsrub errors
【处理过程】
-
执行 ceph health detail 找出有问题的pg和pg所在的OSD
-
根据OSD登录所在节点查找相关日志,并没有发现OSD有硬件报错。
-
手动执行 ceph pg repair [pgid]修复pg,问题解决。
【问题原因】
出现该问题的原因是ceph 在做deep scrub时发现了个别pg数据不一致的问题。常见问题是硬盘即将出问题导致的,但目前还没有告警出来。
暂时使用ceph pg repair修复,如果再次出则需要检查硬盘,考虑更换OSD。