以下笔记参考多篇资料:
MTBF(Mean Time Before Failure,平均失效间隔时间)是指一个可修复系统失效的平均间隔时间,MTBF越大,这个系统就越可靠。
产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate),常用λ表示。例如正在运行中的100只硬碟,一年之内出了2次故障,则每个硬碟的故障率为0.02次/年。当产品的寿命服从指数分布时,其故障率的倒数就叫做平均故障间隔时间(Mean Time Between Failures),简称MTBF。即:
MTBF=1/λ
这个数字是怎么得出来的呢?不同厂商有不同厂商的做法。
WD采用的是多台驱动器同时工作的累计方式,如1000台驱动器同时工作1000个小时,若容许故障率(AFR)定于某规定数值(如0.7%),平均无故障工作时间即为100万小时(1000×1000)。具体到WD Caviar RE2的120万小时平均无故障工作时间,则是在1200台驱动器以100%的负载循环(读/写各占50%)同时工作1000小时、7×24开机的情况下,容许故障率低于0.7%而得到的。1000小时相当于1个多月的时间,是完全可行而不会影响产品的正常生产和上市的。
一年8760小时。120万小时约为137年,并不是说该种硬碟每只均能工作137年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/137年,即该硬碟的平均年故障率约为0.7%,一年内,平均1000只硬碟有7只会出故障。
根据业界一些实际的测量,MTBF的数字是完全靠不住的。厂商的MTBF数据都有其特定的测试环境和条件,而且厂商对于disk error的错误和用户也不一致,常常一个硬盘到了厂商那里检测却报告说没有什么问题。
一般来说,年均故障率可以参考以下的数字:
While drive manufacturers often quote yearly failure rates below 2% [2], user studies have seen rates as high as 6% .