zoukankan      html  css  js  c++  java
  • 安徽某制造大厂开发部DELL存储故障及处理

    时间:2019.07.29  坐标:安徽合肥

    前提插曲:

    下午4点接到电话,一个多小时后抵达厂区,真心好远。。。。准备刷证进厂被拒绝,前台说是过了5点半不再接待访客。好吧,我和业主电话沟通这事儿,答复超了10分钟确实没办法了,咋办?打道回府呗。正准备离开的时候,在我后面预约进厂的3个韩国人居然被前台放行了。哎哟,我嘞个气愤呀。这怎么能行,怎么可以酱紫?中国人进不去中国的工厂,外国人却进去了,大家一样的工程师。拿起电话,通知业主想办法让我进去,今天必须得进、得解决问题,明天哥哥我有事儿,不能伺候了您嘞。反正后来是进去了:前台接到电话,问我是不是去开发部的,我说是,就刷证放行了。

    查找问题:

    1、进入机房查看,并了解到开发部周一上班时发现机房空调停机了才重新开的空调。设备暂时未发现机房设备报警,但是CAD室的所有工作站统统无法访问存储服务器,无法存取开发部员工账户下各自的文件。我们先来一步步查验看看问题在哪:

    19:00工作站登录root权限: showmount -e localhost

    Ping下存储服务器10.69.245.3,发现是通的;

    再输入showmount -e 10.69.245.3

     找个用户账户在工作站登陆一下,结果这样(三张图):

     

    桌面找不到存储的文件。

    远程看看存储服务器

    ssh 10.69.245.3

    再退到工作站状态下,重启一下autofs:

    service autofs restart

    可见:网络是没有问题的。

    19:16直接这样试一下“su  -  用户名”

    切回root账户,再ssh 10.69.245.3进去,再 cd /pub/Array/u/62000204,

    df -h 看看,客户端就更没有了,服务器上都没有那个文件了。

    尼玛,这挂载还是有问题。我哭/(ㄒoㄒ)/~~

    /etc/init.d/iscsid status

    /etc/init.d/iscsi status

    fdisk -l |grep sd

     存储 没自动挂起来!!!

     再继续:

    vgdisplay

    vgscan

     

     

     结果很明显,人家压根就 没有识别 没有识别到存储。

     /etc/init.d/iscsid restart

    /etc/init.d/iscsi restart

    fdisk -l |grep sd

    重新挂载下 看看

    cd /var/lib/iscsi

    ls -l

    cd send_targets

    ls -l

     

    ping 192.168.2.13不通

    ping 192.168.2.10还是不通

    ip addr

    19:37基本上可以确定,存储间断连了。

    嘚嘞,再去机房看看吧

    找了个显示器和键鼠直接接到那台NIS服务器上去(配置Server2008R2的DELL R430),拿到管理员密码后登陆打开DELL存储管理软件,压根就无法链接上,咋配置啊,果断放弃。

    20:00同时仔细检查交换机跳线,灯不亮的重新拔插一次,还是坚决不亮。

    (唉,灯不亮的正有存储的连接线CAD-17在其中,扶额~~~~)

     再打开机柜后盖看看,无语了,存储控制器(双控)的报警灯在激情地闪烁着她橘红色的光芒。

    21:00虽然很晚了(过了21:30就无法出厂门了,o(╥﹏╥)o好怕),为了慎重还是给DELL打电话了,其中当然少不了序列号,DELL存储的序列号藏得“真好”,差点没找到。

    然而DELL客服的话,我还是很听的。将存储设备依次断电(主控、阵列1、阵列2、阵列3),等待机器降温,感觉差不多再依次重启,这次是反向:首先阵列3、阵列2、阵列1通电,每台设备间 间隔3分钟,等待业务启动,最后是主控通电,有点慢,急不得的,中间有段风扇声音特别响,差不多小10分钟吧。

    21:17离开机房,回到工作站上。现在再调试,就应该差不多了。耶(^-^)V

     

    /etc/init.d/iscsid restart

    /etc/init.d/iscsi restart

    fdisk -l |grep sd    重新挂载下,然后vgscan

    vgchange -ay vg_v2000

    cat /etc/fstab

    cat /etc/rc.local

    sh /etc/rc.local  然后再df –h

    service nfs restart然后切到工作站再service autofs restart

    21:25用员工账户登陆一下OK,啦啦啦(~ ̄▽ ̄)~他们桌面文件又出现了,存储重新连接上了。

    九点半还有5分钟,o(╥﹏╥)o赶紧撤喽。。。。。。。。。。。。。。。。。。。

    结语:其实本次故障的原因就是空调停机引起存储控制器温度过高,进而宕机。还有就是一来看机房没错,错在太粗心,竟然没发现存储控制告警。作为处罚,明天中午不吃鸡腿了。

    ——完——

    之所以开博客,纯为记录自己学习的过程,以便查缺补漏。如有参考我的博客,不清晰的地方可以留言或者加好友交流,以助共同进步。
  • 相关阅读:
    Asp.net2.0 中自定义过滤器对Response内容进行处理 dodo
    自动化测试工具 dodo
    TestDriven.NET 2.0——单元测试的好助手(转) dodo
    JS弹出窗口的运用与技巧 dodo
    ElasticSearch 简介 规格严格
    修改PostgreSQL字段长度导致cached plan must not change result type错误 规格严格
    Linux系统更改时区(转) 规格严格
    mvn编译“Cannot find matching toolchain definitions for the following toolchain types“报错解决方法 规格严格
    ElasticSearch 集群 & 数据备份 & 优化 规格严格
    Elasticsearch黑鸟教程22:索引模板的详细介绍 规格严格
  • 原文地址:https://www.cnblogs.com/ict-tang/p/11271659.html
Copyright © 2011-2022 走看看