zoukankan      html  css  js  c++  java
  • 一次VDP故障记录

    背景

    现有vsphere5.5环境,300+ VM ,不少重要业务需要备份,之前部署了三个节点的VDP来备份这些VM,由于标准版VDP有存储容量上的限制(好像可用3T),现在的备份任务只保存三天,正好测试备份产品,准备用测试产品备份现有VDP的备份计划,今天一看vcenter事件,vdp3告警,再往下看,两三天的任务都没正常备份了,坑以后再说,开始说故障处理。

    故障发现

    vcenter 任务事件告警信息
    mark
    检查点过期?马上看前几天的事件,发现近几天的备份都未成功,
    登录vsphere-web-client 看看vdp上的事件(慢)

    VDP的报告截图
    mark

    第一反应,完整性检查,但是这不应该需要人员干预阿,But,看以用容量, 2% 再看下最后成功备份的日期,备份保留时间只有三天,第一反应是三天备份失败,备份都被删除了,但是这不科学的阿,

    这里说下,最好的处理办法是现在重新部署一个VDP来接管之前的备份任务。
    这里抱着试试看的心态来搞点事情,(结果通宵了- -!

    顺便证明一波国内某知名搜索引擎有多没用
    使用一波搜索引擎,给的答案简直就是所问非所答,只有有关键字就往上靠,搜vdp故障竟让能搜出安装vcenter的文档,(呵呵呵)

    还有什么vmsky阿,太不活跃,看帖子跟学历史似的,
    gg一波,

    处理思路和流程

    下面说下我处理的思路和流程

    1. 开始新的备份(反正也没备份集了,这最简单,)
    2. 报错说完整性检查状态过时,那就检查一波完整性,那么问题来了,我都没数据了 完整性检查毛线

    一步一步来

    • 打开web-client ,备份试试,VDP龟速,等一年 终于出了连接备份
    • 点了,等着
    • 报错了, 时间不同步,(这里说下,并不是VDP的始终不准确,而是vcenter的同步频率周期太长,)这就去同步
    • 继续等
    • 等可以点备份了,备份试下,
    • 很好,不让备份,报错内容“vdp应用装置处于一下状态时无法备份 Admin“
    • VDP状态为Admin时不让开始备份任务,
    • 抱着试试看的心态,我愚蠢的去完整性检查
    • 这回厉害了,等半小时报错,这个故障现象一点信息量都没有(“暂时无法检查,请稍后再试”)
    • 这里本菜鸡懵逼了,开启搜索模式,这里安利一个比官方kb 国内某论坛强一万倍的Communities(https://communities.vmware.com
      首先登陆vdp的shell 先查看下服务的状态,步骤如下:
    dpnctl status
    

    输出如下

    Identity added: /home/dpn/.ssh/dpnid (/home/dpn/.ssh/dpnid)
    dpnctl: INFO: gsan status: degraded
    dpnctl: INFO: MCS status: up.
    dpnctl: INFO: emt status: up.
    dpnctl: INFO: Backup scheduler status: up.
    dpnctl: INFO: axionfs status: down.
    dpnctl: INFO: Maintenance windows scheduler status: enabled.
    dpnctl: INFO: Unattended startup status: enabled.
    dpnctl: INFO: avinstaller status: up.
    dpnctl: INFO: [see log file "/usr/local/avamar/var/log/dpnctl.log"]
    

    这里看到gsan状态是degraded 这个应该就是状态一直为admin的原因吧
    重启下这个服务,然后启动所有服务。

    dpnctl stop gsan
    dpnctl start all
    

    再看状态为up了,而且我一直看着web-client 突然看到已用容量为90%多,(可能是幻觉吧)
    服务状态对了,我再去完整性检查试下,点完之后又是等
    mark
    这时候在看下服务的状态,又变回去了,我懵了,看着这些VDP报告,估计手动备份肯定也是要gg的
    我去看log, /var/log/message 没有什么有价值的信息,
    mail 也没什么信息,
    /usr/local/avamar/var/log/ 下的日志,也没什么有用的信息

    顺手执行了条 df -lh (不是rm -rf / , chmod -R 000 /)

    mark
    数据盘全满
    那么问题来了,为什么在WEB 上没有显示出来了,而且已用空间2% 备份点也一个都没有,
    现在的思路

    1. vdp3与vcenter的认证出了问题,
    2. vdp3的数据过大导致显示为0
    3. BUG

    现在解决这个问题是矛盾的,
    首先,正常来如果我的data01 data02 data03 没空间, 删除步骤或者清理步骤,应该是登录web-client 然后完整性检查,或者是去web上删除备份点,
    我这么直接rm了不知道ok不ok,
    查找kb和社区,给出的答案就是在shell下强制检查,我无法检查,报错,(有可能是空间不够我做整合或者检查的)
    还有解决办法是联系技术支持,

    好吧不纠结了, 就这样吧
    一会儿还要上班呢,
    明天来决定是rm 还是联系技术支持来搞,还是直接重新部署vdp、
    睡了

    mark
    August 4, 2017 2:53 AM

  • 相关阅读:
    js分享插件
    json格式
    事物TransactionScope
    CheckBox全选、取消全选
    JQuery中的prop和attr
    [转]javascript之数组操作
    pcntl_fork()函数说明
    从库因为sql错误导致主从同步被中断的问题解决
    查看进程的命令ps
    给mysql创建用户
  • 原文地址:https://www.cnblogs.com/xth0331/p/9655616.html
Copyright © 2011-2022 走看看