zoukankan      html  css  js  c++  java
  • 记一次dell服务器内存告警故障

    起因:

          公司新采购了一批DDR 2666MHZ 内存使用到线上,机房运维小A负载扩容内存到一批DELL R740xd 服务器上。这是一个简单的工作,体力为主。刚刚吃完午饭接到项目组电话,催我回来处理大问题。一台服务器内存持续告警,查不到原因,明天上午就要交给业务组使用了,今天还没有故障清零

    询问操作:

          1. 新采购内存有一个报废件,在内存卡槽B3 B4 上试了两次无法开机

          2. 更换新内存条后,在内存卡槽B4 正常开机并进入IDRAC 清理了系统日志,重启了idrac racadm reset cold
          3. 发现dell_exporter 内存告警持续处在。关机调整内存到B3卡槽 开机后复现问题

          4. 内存压测后 主机内存持续95% 10分钟无故障点

    解决问题:

          dell_exporter  使用omreport 来收集服务器信息。 

    omreport chassis
    Health
    
    Main System Chassis
    
    SEVERITY : COMPONENT
    Ok       : Fans
    Ok       : Intrusion
    Critical : Memory
    Ok       : Power Supplies
    Ok       : Power Management
    Ok       : Processors
    Ok       : Temperatures
    Ok       : Voltages
    Ok       : Hardware Log
    Ok       : Batteries

        问题在这里 om 中记录了一份内存错误日志信息也要清除

    dcicfg  command=clearmemfailures
    Clearing failures using mask: 524287
    A1: ok
    A3: ok
    B1: ok
    B3: ok
    
    
    
    omreport chassis 
    Health
    
    Main System Chassis
    
    SEVERITY : COMPONENT
    Ok       : Fans
    Ok       : Intrusion
    Ok       : Memory
    Ok       : Power Supplies
    Ok       : Power Management
    Ok       : Processors
    Ok       : Temperatures
    Ok       : Voltages
    Ok       : Hardware Log
    Ok       : Batteries

    解决问题 ,赶紧撤了回家还得肝原神哪

        

  • 相关阅读:
    SED&AWK
    load average[zhuan]
    To be learned
    Android计时器 android.widget.Chronometer
    Play初识
    获取视图的宽高
    自定义摄像机
    Android VideoView使用小记
    在android中,如何去掉webview读取网页后点击网页上的按钮出现的方框
    阿里云主机试用之自建站点和ftp上传所遇的2个问题
  • 原文地址:https://www.cnblogs.com/leleyao/p/15721367.html
Copyright © 2011-2022 走看看