zoukankan      html  css  js  c++  java
  • 记录一次VMware vSAN升级踩下的坑

    VMware产品升级需谨慎.... 且升且珍惜....

    1、升级背景

      vSphere 6.5u2 + vCSA 6.5u2的环境,计划升级至vSphere 6.7u3 + vCSA 6.7u3。

      vSAN集群中有24台ESXI主机:    

        4台DELL: PowerEdge R740xd  Raid卡型号:DELL 330 Adapter  Raid卡固件版本:16.17.00.03

        10台DELL:PowerEdge R730     Raid卡型号:DELL 300 Mini       Raid卡固件版本:13.17.03.05

        10台DELL:PowerEdge R730     Raid卡型号:DELL 300 Mini       Raid卡固件版本:15.17.09.06

    2、升级过程

    2.1 兼容性检查

      服务器信号兼容 ESXi 6.7u3

     

      Raid卡330Mini兼容ESXi 6.7u3,但是需要升级固件版本

      

       Raid卡330 Adapter兼容ESXi 6.7u3,不需要升级固件版本

        

    2.2 升级vCSA

        1. 通过vCSA 6.7u3 ISO镜像中的通过升级向导非常顺利的将vCSA升级到了6.7u3。

        2. 升级完vCSA 6.7u3后在vCenter Server的vSAN集群运行状况页面看到VMware推荐的Raid卡固件版本为 16.17.00.03和16.17.00.05

         

     

    2.3 升级ESXi 和 Raid卡固件

      1. 因为集群中有4台PowerEdge R740xd的Raid卡固件版本为 16.17.00.03,因此计划将20台R730的Raid卡固件版本升级至 16.17.00.03,这样集群的Raid卡固件版本就统一。

      2. 通过vCSA 6.7自带的Update Manager升级ESXI主机 非常顺利。

      3. 升级ESXI的同时,通过DELL iDRAC Web界面将Raid卡固件版本升级至 16.17.00.03 非常顺利。

      4. 同时升级ESXI和Raid卡固件版本只需要重启一次 非常顺利。

     

    3、遇到的问题及处理的过程

      升级第一天

        因为集群ESXI主机数量多,虚机数量也多,为了不影响虚机,只能一台一台升级。每天大概能升级4台,一切顺利。

      升级第二天

        集群中升级了10台后,出现一大波虚机Hang死,相关业务部门的同事也一直抱怨大片业务中断,大概1分钟左右后自动恢复。

        发现每台ESXI事件日志:

            

        通过事件日志找到VMware一篇KB:https://kb.vmware.com/s/article/59220

        KB里面所有有很多种原因可能导致这个问题,如磁盘、网络等。

        KB中还说:The issue has been resolved completely of the false messages in vSAN 6.7 Update 1 onwards.  

        于是检查vSAN磁盘和网络都正常,没有任何异常。

        于是觉得应该是集群中有ESXi 6.5u2和 6.7u3混合导致的问题,于是第二天将所有ESXi主机版本都升级至 6.7u3,并且将磁盘格式也升级完成,

        一直搞到晚上11点,心想这下vSAN应该不会有问题了。

      升级第三天:

        第三天早上刚起床,打开手机看到半夜又是一大波虚机hang死的报错,相关业务部门的同事也一直抱怨大片业务中断。 

          内心奔溃中.....突然觉得尼玛vSAN产品这么不稳定的吗? 心想:看来vSAN这个产品还是不能用于生产环境。

        只能继续分析ESXI主机中的hostd.log vmkernel.log 在出现问题前没有任何征兆....

        只能继续Google.....终于找到一篇文章提到 https://kb.vmware.com/s/article/67732 .... 果然还是Raid卡固件惹的祸 .... 感动ing....

        到DELL官网 HBA330 Mini 16.17.00.05 固件页面果然看到Fixed vSAN BUG...

        

        于是赶紧将Raid卡330Mini的固件版本升级至 16.17.00.05.

        在还剩下2台ESXI主机的Raid卡固件版本还没升级时,还是出现一大波虚机hang死的报错,当时心的凉了,心想为毛还是出现Hang死故障。

        在晚上11点左右,终于将所有Raid卡330Mini固件升级至 16.17.00.05。

        睡觉的时候心里一直祈祷千万别再出问题了,再出问题都不知道如何排查了,不可能将vSAN版本降级,只能从网络方面去排查VSAN网络是否有异常。

      升级第四天:

        第四天周六早上刚起床,立马打开手机看是否有虚机hang死的报错....结果还真没有了.... 本来想起床的...立马再睡个回笼觉....   

     

    4、经验总结

      对于VMware vSAN来说...各种兼容性非常重要.....一定要结合VMware官网的兼容性列表,以及各厂家的固件或驱动Release信息。

      

     

  • 相关阅读:
    【BZOJ4009】[HNOI2015]接水果 DFS序+整体二分+扫描线+树状数组
    【BZOJ4010】[HNOI2015]菜肴制作 拓扑排序
    【BZOJ4028】[HEOI2015]公约数数列 分块
    有道云笔记配合MPic+七牛云 自制MarkDown文档图床(适用Typora)
    Python面试题之Python反射机制
    Python爬虫学习笔记之爬虫基础库
    Django学习笔记之Django Form表单详解
    Django学习笔记之Django的url反向解析
    SQL学习笔记之SQL中INNER、LEFT、RIGHT JOIN的区别和用法详解
    SQL学习笔记之MySQL中真假“utf8” 问题
  • 原文地址:https://www.cnblogs.com/vincenshen/p/12434551.html
Copyright © 2011-2022 走看看