说“血案”有写夸张了,其实是也就熬了一夜的通宵,做运维的伤不起啊,作为一名运维工程师,像这种服务器突发故障半夜起床的情况属于家常便饭,见怪不怪了,开始说正事:
前几天半夜12点左右,收到服务器宕机的消息,然后用dell idrac 卡远程,结果无法通过它正常开机,直接发邮件给机房,让他们重置下idrac管理卡(就是拔掉电源线,过2分钟后再插回去),
机房操作好之后,可以连上服务器,结果还没好1分钟,机器又挂了,还是刚才的情况,据我分析应该是哪里硬件出问题了,再通知机房处理,这次机房人员反应,机器无法开机了,当时我有种
不好的预感,可能今晚睡不成了,电话询问了解到服务器插上电源线后,电源会有一些“滴水”的声音发出,怀疑可能电源出问题了,先换了一条电源线,结果依旧,后来找了台同型号闲置的服务器
的电源,打算让机房人员换上看看,结果机房人员不给力,说电源拆不下来,也不敢暴力拆解,我也怕他拆坏,所以只有另想办法,我突然想到能不能把硬盘换到同型号的服务器上,这样应该可以
开启服务器并尽快恢复线上业务,因为服务器是dell 的R420,并且还在报修期内,所以当时就打了dell 官方售后电话:400-886-8618,想让dell 工程师上门维修,不太现实,时间来不及,线上
业务要尽快恢复,所以只能咨询看换硬盘的方案是否可行,得到dell 技术支持的肯定后,就开始换硬盘方案。
这里介绍下,我们两台服务器(为了描述方便,我们记为A,B两台服务器,A为电源故障服务器,B为正常服务器),每台两块硬盘是做的raid1(两块硬盘互为备份),raid 卡 和机器配置都一样,
满足这样的条件,换硬盘的方案才可行,下面说下具体更换步骤:
1、把A机器的两块硬盘拔出,B机器关机,并且电源线也拔掉,然后把A的两块硬盘插入B机器上。
2、把B机器通电,开机,会有一个错误提示说有外部raid 信息,需要导入,按屏幕提示,进入raid 配置工具。
3、在“PD Mgmt”标签中,可以看到两块一样大小,State 都是“Foreign”的硬盘。
4、切换标签到“Foreige View”,查看“Physical Disks”下有两块都是“Online”,但都是“Foreign”的硬盘。
5、然后把光标移到PERC H310 Mini (Bus 1,Dev 0) ,按F2,"Foreign Config" --> "import" ,回车,最后再确认,即可把raid 信息导入成功。(记住确认之后就相当于已经导入了,不需要保存)
附图: