zoukankan      html  css  js  c++  java
  • 处理stale的pg

    前言

    在某些场景下Ceph集群会出现stale的情况,也就是ceph集群PG的僵死状态,这个状态实际上是无法处理新的请求了,新的请求过来只会block,那么我们如何去恢复环境

    实践过程

    首先模拟stale环境,这个比较好模拟

    设置副本2,然后同时关闭两个OSD(不同故障域上),然后删除这两个OSD

    集群这个时候就会出现stale的情况了,因为两份数据都丢了,在一些环境下,数据本身就是临时的或者不是那么重要的,比如存储日志,这样的环境下,只需要快速的恢复环境即可,而不担心数据的丢失

    处理过程

    首先用ceph pg dump|grep stale 找出所有的stale的pg

    然后用 ceph force_create_pg pg_id

    如果做到这里,可以看到之前的stale的状态的PG,现在已经是creating状态的了,这个时候一个关键的步骤需要做下

    就是重启整个集群的OSD,在重启完成了以后,集群的状态就会恢复正常了,也能够正常的写入新的数据了,对于老的数据,做下清理即可

    变更记录

    Why Who When
    创建 武汉-运维-磨渣 2016-11-14
  • 相关阅读:
    第五篇
    第四篇
    PAT Basic 1094 谷歌的招聘 (20 分)
    PAT Basic 1093 字符串A+B (20 分)
    Dubbo 04 服务化最佳实现流程
    Dubbo 03 Restful风格的API
    Dubbo 02 微信开发
    Dubble 01 架构模型&start project
    PAT Basic 1020 月饼 (25 分)
    PAT Basic 1019 数字黑洞 (20 分)
  • 原文地址:https://www.cnblogs.com/zphj1987/p/13575386.html
Copyright © 2011-2022 走看看