zoukankan      html  css  js  c++  java
  • 安徽某制造大厂开发部DELL存储故障及处理

    时间:2019.07.29  坐标:安徽合肥

    前提插曲:

    下午4点接到电话,一个多小时后抵达厂区,真心好远。。。。准备刷证进厂被拒绝,前台说是过了5点半不再接待访客。好吧,我和业主电话沟通这事儿,答复超了10分钟确实没办法了,咋办?打道回府呗。正准备离开的时候,在我后面预约进厂的3个韩国人居然被前台放行了。哎哟,我嘞个气愤呀。这怎么能行,怎么可以酱紫?中国人进不去中国的工厂,外国人却进去了,大家一样的工程师。拿起电话,通知业主想办法让我进去,今天必须得进、得解决问题,明天哥哥我有事儿,不能伺候了您嘞。反正后来是进去了:前台接到电话,问我是不是去开发部的,我说是,就刷证放行了。

    查找问题:

    1、进入机房查看,并了解到开发部周一上班时发现机房空调停机了才重新开的空调。设备暂时未发现机房设备报警,但是CAD室的所有工作站统统无法访问存储服务器,无法存取开发部员工账户下各自的文件。我们先来一步步查验看看问题在哪:

    19:00工作站登录root权限: showmount -e localhost

    Ping下存储服务器10.69.245.3,发现是通的;

    再输入showmount -e 10.69.245.3

     找个用户账户在工作站登陆一下,结果这样(三张图):

     

    桌面找不到存储的文件。

    远程看看存储服务器

    ssh 10.69.245.3

    再退到工作站状态下,重启一下autofs:

    service autofs restart

    可见:网络是没有问题的。

    19:16直接这样试一下“su  -  用户名”

    切回root账户,再ssh 10.69.245.3进去,再 cd /pub/Array/u/62000204,

    df -h 看看,客户端就更没有了,服务器上都没有那个文件了。

    尼玛,这挂载还是有问题。我哭/(ㄒoㄒ)/~~

    /etc/init.d/iscsid status

    /etc/init.d/iscsi status

    fdisk -l |grep sd

     存储 没自动挂起来!!!

     再继续:

    vgdisplay

    vgscan

     

     

     结果很明显,人家压根就 没有识别 没有识别到存储。

     /etc/init.d/iscsid restart

    /etc/init.d/iscsi restart

    fdisk -l |grep sd

    重新挂载下 看看

    cd /var/lib/iscsi

    ls -l

    cd send_targets

    ls -l

     

    ping 192.168.2.13不通

    ping 192.168.2.10还是不通

    ip addr

    19:37基本上可以确定,存储间断连了。

    嘚嘞,再去机房看看吧

    找了个显示器和键鼠直接接到那台NIS服务器上去(配置Server2008R2的DELL R430),拿到管理员密码后登陆打开DELL存储管理软件,压根就无法链接上,咋配置啊,果断放弃。

    20:00同时仔细检查交换机跳线,灯不亮的重新拔插一次,还是坚决不亮。

    (唉,灯不亮的正有存储的连接线CAD-17在其中,扶额~~~~)

     再打开机柜后盖看看,无语了,存储控制器(双控)的报警灯在激情地闪烁着她橘红色的光芒。

    21:00虽然很晚了(过了21:30就无法出厂门了,o(╥﹏╥)o好怕),为了慎重还是给DELL打电话了,其中当然少不了序列号,DELL存储的序列号藏得“真好”,差点没找到。

    然而DELL客服的话,我还是很听的。将存储设备依次断电(主控、阵列1、阵列2、阵列3),等待机器降温,感觉差不多再依次重启,这次是反向:首先阵列3、阵列2、阵列1通电,每台设备间 间隔3分钟,等待业务启动,最后是主控通电,有点慢,急不得的,中间有段风扇声音特别响,差不多小10分钟吧。

    21:17离开机房,回到工作站上。现在再调试,就应该差不多了。耶(^-^)V

     

    /etc/init.d/iscsid restart

    /etc/init.d/iscsi restart

    fdisk -l |grep sd    重新挂载下,然后vgscan

    vgchange -ay vg_v2000

    cat /etc/fstab

    cat /etc/rc.local

    sh /etc/rc.local  然后再df –h

    service nfs restart然后切到工作站再service autofs restart

    21:25用员工账户登陆一下OK,啦啦啦(~ ̄▽ ̄)~他们桌面文件又出现了,存储重新连接上了。

    九点半还有5分钟,o(╥﹏╥)o赶紧撤喽。。。。。。。。。。。。。。。。。。。

    结语:其实本次故障的原因就是空调停机引起存储控制器温度过高,进而宕机。还有就是一来看机房没错,错在太粗心,竟然没发现存储控制告警。作为处罚,明天中午不吃鸡腿了。

    ——完——

    之所以开博客,纯为记录自己学习的过程,以便查缺补漏。如有参考我的博客,不清晰的地方可以留言或者加好友交流,以助共同进步。
  • 相关阅读:
    学习笔记10.28
    学习目标
    ajax传值修改数据
    php 4种传值方式
    01-17权限管理
    01-16作业:文件管理
    01-15文件操作
    01-12文件上传
    1-6 号 详情
    ajax登陆提示
  • 原文地址:https://www.cnblogs.com/ict-tang/p/11271659.html
Copyright © 2011-2022 走看看