MTBF,平均故障间隔时间
作者: 来源: 文字大小:[大][中][小]
MTBF,平均故障间隔时间又称平均无故障时间,英文全称是“Mean Time Between Failure”指可修复产品两次相邻故障之间的平均时间,记为MTBF。MTBF是衡量一个产品(尤其是电器产品)的可靠性指标。单位为“小时”。它反映了产品的时间质量,是体现产品在规定时间内保持功能的一种能力。具体来说,它仅适用于可维修产品。同时也规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。磁盘阵列产品一般MTBF不能低于50000小时。
随着伺服器的广泛应用,对伺服器的可靠性提出了更高的要求。所谓“可靠性”,就是产品在规定条件下和规定时间内完成规定功能的能力;反之,产品或其一部分不能或将不能完成规定的功能是出故障。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate),常用λ表示。例如正在运行中的100只硬碟,一年之内出了2次故障,则每个硬碟的故障率为0.02次/年。当产品的寿命服从指数分布时,其故障率的倒数就叫做平均故障间隔时间(Mean Time Between Failures),简称MTBF。
设有一个可修复的产品在使用过程中,共计发生过N0次故障,每次故障后经过修复又和新的一样继续投入使用,其工作时间分别为:那么产品的平均故障间隔时间,也就是平均寿命为Q为:
通常,我们在产品的手册或包装上能够看到这个MTBF值,如8000小时,2万小时,那么,MTBF的数值是怎样算出来的呢,假设一台电脑的MTBF 为3万小时,是不是把这台电脑连续运行3万小时检测出来的呢?答案是否定的,如果是那样的话,我们有那么多产品要用几十年都检测不完的。其实,关于 MTBF值的计算方法,目前最通用的权威性标准是MIL-HDBK-217、GJB/Z299B和Bellcore,分别用于军工产品和民用产品。其中,MIL-HDBK-217是由美国国防部可靠性分析中心及Rome实验室提出并成为行业标准,专门用于军工产品MTBF值计算,GJB/Z299B是我国军用标准;而Bellcore是由AT&TBell实验室提出并成为商用电子产品MTBF值计算的行业标准。
MTBF计算中主要考虑的是产品中每个器件的失效率。但由于器件在不同的环境、不同的使用条件下其失效率会有很大的区别,例如,同一产品在不同的环境下,如在实验室和海洋平台上,其可靠性值肯定是不同的;又如一个额定电压为16V的电容在实际电压为25V和5V下的失效率肯定是不同的。所以,在计算可靠性指标时,必须考虑上述多种因素。所有上述这些因素,几乎无法通过人工进行计算,但借助于软件如MTBFcal软件和其庞大的参数库,我们就能够轻松的得出MTBF值。
可靠性是最初是确定一个系统在一个特定的运行时间内有效运行的概率的一个标准。可靠性的衡量需要系统在某段时间内保持正常的运行。
目前,使用最为广泛的一个衡量可靠性的参数是,MTTF(mean time to failure,平均失效前时间),定义为随机变量、出错时间等的"期望值"。但是,MTTF经常被错误地理解为,"能保证的最短的生命周期"。MTTF 的长短,通常与使用周期中的产品有关,其中不包括老化失效。
MTTR(mean time to restoration,平均恢复前时间),源自于IEC 61508中的平均维护时间(mean time to repair),目的是为了清楚界定术语中的时间的概念,MTTR是随机变量恢复时间得期望值。它包括确认失效发生所必需的时间,以及维护所需要的时间。 MTTR也必须包含获得配件的时间,维修团队的响应时间,记录所有任务的时间,还有将设备重新投入使用的时间。
MTBF(Mean time between failures,平均故障间隔时间)定义为,失效或维护中所需要的平均时间,包括故障时间以及检测和维护设备的时间。对于一个简单的可维护的元件,MTBF = MTTF + MTTR。因为MTTR通常远小于MTTF,所以MTBF近似等于MTTF,通常由MTTF替代。MTBF用于可维护性和不可维护的系统。