zoukankan      html  css  js  c++  java
  • 记一次dell服务器内存告警故障

    起因:

          公司新采购了一批DDR 2666MHZ 内存使用到线上,机房运维小A负载扩容内存到一批DELL R740xd 服务器上。这是一个简单的工作,体力为主。刚刚吃完午饭接到项目组电话,催我回来处理大问题。一台服务器内存持续告警,查不到原因,明天上午就要交给业务组使用了,今天还没有故障清零

    询问操作:

          1. 新采购内存有一个报废件,在内存卡槽B3 B4 上试了两次无法开机

          2. 更换新内存条后,在内存卡槽B4 正常开机并进入IDRAC 清理了系统日志,重启了idrac racadm reset cold
          3. 发现dell_exporter 内存告警持续处在。关机调整内存到B3卡槽 开机后复现问题

          4. 内存压测后 主机内存持续95% 10分钟无故障点

    解决问题:

          dell_exporter  使用omreport 来收集服务器信息。 

    omreport chassis
    Health
    
    Main System Chassis
    
    SEVERITY : COMPONENT
    Ok       : Fans
    Ok       : Intrusion
    Critical : Memory
    Ok       : Power Supplies
    Ok       : Power Management
    Ok       : Processors
    Ok       : Temperatures
    Ok       : Voltages
    Ok       : Hardware Log
    Ok       : Batteries

        问题在这里 om 中记录了一份内存错误日志信息也要清除

    dcicfg  command=clearmemfailures
    Clearing failures using mask: 524287
    A1: ok
    A3: ok
    B1: ok
    B3: ok
    
    
    
    omreport chassis 
    Health
    
    Main System Chassis
    
    SEVERITY : COMPONENT
    Ok       : Fans
    Ok       : Intrusion
    Ok       : Memory
    Ok       : Power Supplies
    Ok       : Power Management
    Ok       : Processors
    Ok       : Temperatures
    Ok       : Voltages
    Ok       : Hardware Log
    Ok       : Batteries

    解决问题 ,赶紧撤了回家还得肝原神哪

        

  • 相关阅读:
    团队项目——需求规格说明书
    UML
    第二次团队作业——预则立&&他山之石
    团队选题报告
    团队展示
    ubuntu下使用pyinstaller将python文件打包成exe(py文件中含有keras框架的代码)
    ubuntu 为项目配置虚拟环境
    安装cuda9.0 + cudnn7.0 与 cuda8.0共存
    ubuntu 16.04 + cuda8.0 + cudnn 6.1 + tensorflow 1.4.0
    修改vs2013中MFC项目名称
  • 原文地址:https://www.cnblogs.com/leleyao/p/15721367.html
Copyright © 2011-2022 走看看