时间:2019.07.29 坐标:安徽合肥
前提插曲:
下午4点接到电话,一个多小时后抵达厂区,真心好远。。。。准备刷证进厂被拒绝,前台说是过了5点半不再接待访客。好吧,我和业主电话沟通这事儿,答复超了10分钟确实没办法了,咋办?打道回府呗。正准备离开的时候,在我后面预约进厂的3个韩国人居然被前台放行了。哎哟,我嘞个气愤呀。这怎么能行,怎么可以酱紫?中国人进不去中国的工厂,外国人却进去了,大家一样的工程师。拿起电话,通知业主想办法让我进去,今天必须得进、得解决问题,明天哥哥我有事儿,不能伺候了您嘞。反正后来是进去了:前台接到电话,问我是不是去开发部的,我说是,就刷证放行了。
查找问题:
1、进入机房查看,并了解到开发部周一上班时发现机房空调停机了才重新开的空调。设备暂时未发现机房设备报警,但是CAD室的所有工作站统统无法访问存储服务器,无法存取开发部员工账户下各自的文件。我们先来一步步查验看看问题在哪:
19:00工作站登录root权限: showmount -e localhost
Ping下存储服务器10.69.245.3,发现是通的;
再输入showmount -e 10.69.245.3
找个用户账户在工作站登陆一下,结果这样(三张图):
桌面找不到存储的文件。
远程看看存储服务器
ssh 10.69.245.3
再退到工作站状态下,重启一下autofs:
service autofs restart
可见:网络是没有问题的。
19:16直接这样试一下“su - 用户名”
切回root账户,再ssh 10.69.245.3进去,再 cd /pub/Array/u/62000204,
df -h 看看,客户端就更没有了,服务器上都没有那个文件了。
尼玛,这挂载还是有问题。我哭/(ㄒoㄒ)/~~
/etc/init.d/iscsid status
/etc/init.d/iscsi status
fdisk -l |grep sd
存储 没自动挂起来!!!
再继续:
vgdisplay
vgscan
结果很明显,人家压根就 没有识别 没有识别到存储。
/etc/init.d/iscsid restart
/etc/init.d/iscsi restart
fdisk -l |grep sd
重新挂载下 看看
cd /var/lib/iscsi
ls -l
cd send_targets
ls -l
ping 192.168.2.13不通
ping 192.168.2.10还是不通
ip addr
19:37基本上可以确定,存储间断连了。
嘚嘞,再去机房看看吧
找了个显示器和键鼠直接接到那台NIS服务器上去(配置Server2008R2的DELL R430),拿到管理员密码后登陆打开DELL存储管理软件,压根就无法链接上,咋配置啊,果断放弃。
20:00同时仔细检查交换机跳线,灯不亮的重新拔插一次,还是坚决不亮。
(唉,灯不亮的正有存储的连接线CAD-17在其中,扶额~~~~)
再打开机柜后盖看看,无语了,存储控制器(双控)的报警灯在激情地闪烁着她橘红色的光芒。
21:00虽然很晚了(过了21:30就无法出厂门了,o(╥﹏╥)o好怕),为了慎重还是给DELL打电话了,其中当然少不了序列号,DELL存储的序列号藏得“真好”,差点没找到。
然而DELL客服的话,我还是很听的。将存储设备依次断电(主控、阵列1、阵列2、阵列3),等待机器降温,感觉差不多再依次重启,这次是反向:首先阵列3、阵列2、阵列1通电,每台设备间 间隔3分钟,等待业务启动,最后是主控通电,有点慢,急不得的,中间有段风扇声音特别响,差不多小10分钟吧。
21:17离开机房,回到工作站上。现在再调试,就应该差不多了。耶(^-^)V
/etc/init.d/iscsid restart
/etc/init.d/iscsi restart
fdisk -l |grep sd 重新挂载下,然后vgscan
vgchange -ay vg_v2000
cat /etc/fstab
cat /etc/rc.local
sh /etc/rc.local 然后再df –h
service nfs restart然后切到工作站再service autofs restart
21:25用员工账户登陆一下OK,啦啦啦(~ ̄▽ ̄)~他们桌面文件又出现了,存储重新连接上了。
九点半还有5分钟,o(╥﹏╥)o赶紧撤喽。。。。。。。。。。。。。。。。。。。
结语:其实本次故障的原因就是空调停机引起存储控制器温度过高,进而宕机。还有就是一来看机房没错,错在太粗心,竟然没发现存储控制告警。作为处罚,明天中午不吃鸡腿了。
——完——