zoukankan      html  css  js  c++  java
  • ceph 集群 slow requests are blocked

    最近在本机 vmware 中搭建 devops 环境时,使用 ceph rbd(StorageClass方式) 把 ceph 集成到 k8s 中去,

    但是只要 pod 有读写,ceph 集群 health 状态就会报错:

    [root@ceph01 ceph-cluster]# ceph -s
      cluster:
        id:     1ff59119-cfe3-43a3-acb5-e1e93f9963ab
        health: HEALTH_WARN
                4 osds down
                Long heartbeat ping times on back interface seen, longest is 75927.194 msec
                Long heartbeat ping times on front interface seen, longest is 73485.542 msec
                Reduced data availability: 77 pgs peering
                Degraded data redundancy: 11/1596 objects degraded (0.689%), 9 pgs degraded
                application not enabled on 1 pool(s)
                51 slow requests are blocked > 32 sec. Implicated osds 5,6,7,8,9,10,11,12,13,14
                clock skew detected on mon.ceph03
    

    这时候,集群访问不正常,会非常慢,部分 osd 会被标记为 down,尝试从 luminous(12) 版本升级到 octopus(15) 版本,问题依旧。

    让后尝试百度搜索报错 slow requests are blocked ,大多数答案都是重启 osd 进程解决,但是使用这种方法还是问题依旧。

    依稀记得看了一篇文章(但是没有保存书签,找不到了)说可能跟集群网络有关,于是尝试把 public 和 cluster 网络合并:

    ceph-deploy new ceph01 ceph02 ceph03 --cluster-network 10.10.20.0/24 --public-network
     10.10.10.0/24
    

    变更为

    ceph-deploy new ceph01 ceph02 ceph03 --cluster-network 10.10.10.0/24 --public-network 
    10.10.10.0/24
    

    神奇的事情发生了,居然问题解决了,具体原因未知,这里就做个记录吧。

  • 相关阅读:
    附加作业
    我的个人总结
    进度更新
    结对编程——电梯调度
    程序阅读的改进
    WordCount
    阅读程序
    VS2013单元测试
    附加作业
    个人最终总结
  • 原文地址:https://www.cnblogs.com/leffss/p/15669182.html
Copyright © 2011-2022 走看看