zoukankan      html  css  js  c++  java
  • 5月31日博客园服务器故障处理过程纪录

         今天上午,我对前两天的故障进行了分析,由于出现问题与处理问题时我不在现场,所以很难判断故障的原因。经过分析,我觉得CPU超温引起故障的可能性比较大,有必要监测CPU的温度(这个工作早应该做了,这两天忙晕了,竟然没想到这点, 总以为主板或电源问题),于是,我就在网上搜索CPU温度监测软件,后来,我想到应该去华硕网站去看看。在华硕网站上找到了PC Probe, 安装好了一看, CPU的温度竟然在70多度,PC Probe一直在报警,常常超过80度。还好,服务器还能正常运行,怎么会这么高,风扇有问题?风扇转速正常啊。难道是环境温度高的原因。就是环境温度高,CPU温度也不会这么高, 继续观察。就这样CPU一直在70、80高温下运行到15:30左右。
        这段时间,我也在网上找服务器所用主板的资料,因为Down机(死机或CPU超温后自动关机)后,多次无法开机,要对CMOS进行放电才能开机,主板应该存在问题。在华硕网站找到相关信息:
    “问题: 
    为什麽当我的P5GDC-V Deluxe搭配DualChannel的memory时, 在待机状态下突然断电, 电脑就开不起来了?
    解答:
    请更新BIOS到1003或之後的版本即可解决这个问题.”  
    后来又看到这样的文章:华硕高端主板芯片又显BUG事件 
    “高端主板P5GDC-V Deluxe时也发现该主板存在着严重的BUG问题。不过这些问题通过刷新主板的BIOS就可以进行更正”。
        由此看来,博客园服务器无法开机应该与主板的Bug有关,升级BIOS是必要的,而且很有可能会解决这个问题。  
        15:33,服务器Down机了,原因可想而知,服务器长时间在酷热下工作,加上今天天气比较热,而且这时博客园访问量很大,CPU负担比较重,服务器中暑不能工作了。实际情况应该是CPU超温,主板保护性关机。联系电信机房工作人员,请他们开一下机器。得到的回复是无法开机,请他们对CMOS进行放电,还是开不了机。晕!看来服务器中暑比较严重。只能下班后,我去机房处理了。在黄金时间Down机,影响太大了。 不争气的服务器!怎么不坚持一下!伤心也解决不了问题,只能耐心等待下班。心里希望大家能够理解和谅解服务器出现的问题!
         一下班,我晚饭也顾不上吃,直接打的去电信机房。CMOS放电,开机,成功开机。博客园正常运行,这时,我升级了一下主板BIOS,希望解决down机后无法开机的问题。可CPU的温度还是一直在70~80多℃,这样长时间运行,还是会Down机。环境温度不算高,已经加装了空调, 应该是CPU散热问题,但CPU风扇运转正常啊,是不是散热片与CPU的接触不好? 关机,打开机箱,拆下风扇,重新安装,开机,晕!开机几秒种后,自动关机。看来是风扇没装好,CPU温度太高,主板保护性关机。继续拆下风扇,重新安装,多次操作之后,可以开机,进入CMOS监视CPU温度,刚开机就有80多℃,而且温度在上升,上升到90℃, 主板就自动关机了。风扇运转正常,却不能给CPU带来凉爽。究竟是什么原因?风扇有问题?虽然运转,却风力不够。联系一下卖电脑的朋友,看有没有这个CPU的风扇,现在没货,要等到明天,这怎么行!今天一定要让服务器恢复正常运行。突想想到是不是散热片与CPU之间的硅胶有问题?拆下风扇一看,硅胶比较硬。换一下硅胶,会不会解决散热的问题?只能试一试,没有其他办法了。可现在到哪找硅胶?幸好电信的工作人员那有,而且是最后的一点点。这点硅胶能否拯救博客园的服务器?如果更换硅胶解决不了问题,怎么办?难道还要再停一个晚上?不行!不能再停了。这时,电信的人伸出了援助之手,他说如果不能修好这台服务器,先把程序迁移到机房的一台临时服务器上。听了后,心里很是感动。心里冷静了一点,情况还不是很糟。 
        将仅有的一点硅胶小心翼翼地涂在CPU上,装上风扇,开机,正常启动,进入CMOS,监视CPU温度,哈哈!只有50多度,看来有效果,继续观察CPU温度,有点上升,但上升到60℃,就稳定了,即使超过60℃一会儿,很快又会降到60℃, CPU风扇发挥了作用。启动系统,博客园正常运行,继续监视CPU温度,基本稳定在60℃。真棒!CPU终于不要冒着酷热工作了。真相大白,原来,这几天服务器down机,全是这不起眼的硅胶惹的祸,原来的硅胶可能失效,不能有效散热。这几天承受的巨大压力,让我有点慌乱,没有冷静地分析问题,CPU散热与硅胶的问题早应该想到。主板升级过BIOS后,也没出现过不能开机的情况,看来主板的问题也得到了解决! 
        这几天服务器不稳定的原因总算找到,问题总算解决。风雨之后是彩虹。博客园继续致力于为大家提供更好的服务! 
        新服务器继续购买。有了两台服务器,如果一台服务器出问题,可以很快恢复博客园的正常运行, 减少服务器故障产生的影响。

  • 相关阅读:
    一本通1268 完全背包问题
    一本通1267 01背包
    合并石子1,2
    求最长不下降子序列++
    数字金字塔升级版
    一本通1354 括弧匹配检验
    一本通1353表达式括号匹配
    一本通1357车厢调度
    Centos查看端口占用情况和开启端口命令
    centos后台运行python程序
  • 原文地址:https://www.cnblogs.com/dudu/p/165618.html
Copyright © 2011-2022 走看看