zoukankan      html  css  js  c++  java
  • 某法院HP-P4500存储数据恢复案例

       好久没出来写博客了。过春节来了一直非常忙。尤其是近期,忙着做了好几个大单子。先是一个医院50TBHP-EVA4400,接着是一个法院12TBHP-P4500,前几天还有做了一个某游乐城12TBVMware VMFS虚拟机恢复。尽管忙点,但是学会了好多新的知识,一直想抽点时间把近期的工作整理成文章发表一下。但是家里没有联网。在公司又得忙工作。

    还好近期工作不是非常忙。能够在公司抽点时间写写。好了,言归正传,进入主题吧!

    【故障描写叙述】

       某法院的一台HP-P4500的存储系统。底层是121TB的硬盘组的RAID。当中每61TB的盘一组,第一组的前面一部分组了一个RAID0+1。是存放HP-P4500嵌入式系统,接着组了一个RAID5存放数据,第二组组了一个RAID5。在存储系统上层一共分了两个卷,卷大小一个为3TB,一个为5TB。后来因磁盘故障导致存储不可用,客户先请HP的project做更换磁盘。强制上线,但存储还是不可用。最后才联系我们做数据恢复。

    【硬件检測】

       我们的硬件project师先对客户的12块硬盘做了硬件检測。发现客户的硬盘都正常。

    既排除硬盘硬件故障。既然都正常,我们就对12块硬盘做了全盘镜像。

    【故障分析】

       我们使用专业的工具对备份出来的镜像做了具体的分析,发现底层的RAID是一个HP双循环RAID5

    而且第一组RAID是好的。也就是第二组RAID的损坏导致存储上层的卷不可用。第二RAID也是一个RAID5,假设是当中一个硬盘掉线那么以RAID5的存储原理应该不会导致存储不可用。因此能够推断第二组RAID中至少是掉了两块磁盘,当中一块是早就掉线的,里面的数据都是旧的,我们需找出早就掉线的那块磁盘。但是我们通过硬件检測发现全部的硬盘都没有硬件故障。那么我们该怎样推断掉线的盘是那一个呢?

    【解决方式】

       因为并不知道RAID中那一块硬盘是早掉线的。所以没办法重组RAID。经过认真思考后确定有两种可行方案。

    方案一:穷举法,即如果当中某一块磁盘是早就掉线的。踢掉此盘,重组RAID然后生成所有数据。最后将数据挂载到HP-P4500上,看数据是否正确。如果数据不对,那么再如果还有一块盘是掉线的,以此循环。尽管这样的方案可行,可是因为每次重组RAID生成数据的数据时间太长。而且准确性非常低。

    方案二:穷举加校验,还是和穷举法一样。如果某个磁盘是掉线的。踢掉磁盘后重组RAID,但不是生成所有的数据,而是仅仅生成前面5G的数据,由于HP-P4500内部存储的数据的索引表位图位于RAID的前几个G之内(由于在这之前我们已经研究过HP-P4500的内部存储原理)。我们仅仅须要查看这个索引表的位图的信息是否正确就能够推断此RAID是否正确。如果正确那么生成此RAID的数据就可以完毕RAID的重组。

    【实施方案】

       採用另外一种解决方式,经过几次測试非常快就推断出正确的RAID

    连夜生成此RAID的数据。

    生成完数据后,将生成的数据和第一组完善的RAID一同挂载到HP-P4500上。然后启动存储,上层的卷由不可用变的可用了。查看了最新的文件发现一切都正常。

    【数据恢复成功】

       因为上层的卷直接能够用了。所以数据也都可见了,可是考虑到安全问题。我们还是将卷里的文件都拷贝出来,然后移交给客户。经过漫长的底层分析,加上不断的測试。

    最终在用户要求的时间内将数据恢复完毕。

    整个恢复过程一共历时两天。之所以能这么快恢复,还是在于我们之前研究过HP-P4500的存储原理。知道了HP-P4500的存储原理以后。关于它的全部数据灾难都能够进行恢复。


    本文全部数据恢复流程及数据恢复技术均来自北亚数据恢复中心。

    作者:邓奇

    联系方式:18911808630


    本文出自 “邓奇的Blog” 博客,请务必保留此出处http://dengqi.blog.51cto.com/5685776/1408841

  • 相关阅读:
    JVM致命错误日志(hs_err_pid.log)分析
    JVM调优-命令大全(jps jstat jmap jhat jstack jinfo
    GC日志分析详解
    简单的学习,实现,领域事件,事件存储,事件溯源
    学习DDD的初步尝试,从最基础的开始,业务介绍,划分限界上下文 ,建立模型
    .Net Core + DDD基础分层 + 项目基本框架 + 个人总结
    第三节:使用Log4net和过滤器记录异常信息,返回异常给前端
    从一层到多层架构的学习笔记
    学习服务之间的调用,三个方法的演化
    .Net Core3.0 WEB API 中使用FluentValidation验证,实现批量注入
  • 原文地址:https://www.cnblogs.com/brucemengbm/p/6855855.html
Copyright © 2011-2022 走看看