MTBF·MTTR 与可用性模拟器 返回
可靠性工程

MTBF·MTTR 与可用性模拟器

评估边修复边使用的系统"有多可靠"的工具。改变总运行时间·故障次数·修复时间,MTBF(平均故障间隔)·可用性(可用性)·任务可靠度·年度停机时间会实时更新,并可查看达到"几个9"的水平。

参数设置
总运行时间 T_op
h
观测期间实际运行的累计时间(8760h=1年)
故障次数 N_fail
观测期间发生的故障(停机)总数
平均修复时间 MTTR
h
从故障发生到恢复所需的平均时间
任务时间 t
h
希望无故障完成的单次运行的持续时间
计算结果
MTBF 平均故障间隔 (h)
故障率 λ (/h)
可用性(可用性)(%)
任务可靠度 R(t) (%)
年度停机时间 (h)
可用性评估
系统运行时间表 — 运行(绿色)和修复(红色)

长的绿色段表示 MTBF(运行),短的红色段表示 MTTR(修复)。绿色占的比例就是可用性。时间线随时间向左滚动。

任务可靠度 R(t) 与任务时间
可用性与 MTTR 的关系
理论·主要公式

$$\text{MTBF}=\frac{T_{op}}{N_{fail}},\qquad A=\frac{\text{MTBF}}{\text{MTBF}+\text{MTTR}},\qquad R(t)=e^{-t/\text{MTBF}}$$

MTBF:平均故障间隔(总运行时间 T_op 除以故障次数 N_fail)。A:可用性(可用性)。R(t):任务时间 t 无故障完成的概率。

$$\lambda=\frac{1}{\text{MTBF}},\qquad D_{year}=(1-A)\times 8760$$

λ:故障率(MTBF 的倒数,每小时故障发生率)。D_year:年度预期停机时间。可用性 A 既可以通过增加 MTBF,也可以通过减少 MTTR 来提高。

MTBF 与可用性简介

🙋
设备目录上写着"MTBF 50000小时"之类的。那是"50000小时内不会坏"的意思吗?
🎓
这是常见的误解。MTBF 是"平均故障间隔",粗略说是"当你有很多相同的设备时,平均多久会有一台坏掉"的统计值。它不是单台产品的寿命保证。在故障率恒定的群体中,许多个体在 MTBF 时间之前就会故障。你应该把它与"保修期"看作是完全不同的东西。
🙋
原来如此…。那实际工作中,当我们说"这个系统很可靠"时,应该看哪个数字呢?
🎓
最常用的是"可用性(可用性)"。A = MTBF ÷(MTBF+MTTR)。MTTR 是平均修复时间,也就是从故障到恢复的时间。可用性是"全时间中系统正常运行、能够完成工作的比例"。左边改变故障次数时,你会看到 MTBF 缩短,可用性快速下降。
🙋
是的,确实看到了。但改变修复时间 MTTR 时可用性也会变化。是增加 MTBF 还是减少 MTTR 更重要呢?
🎓
很好的问题。这其实是可靠性设计的关键。可用性可以从两个方向提高:"减少故障(延长 MTBF)"和"加快修复(缩短 MTTR)"。例如在数据中心的服务器上,可以通过冗余部件来减少故障本身,或者通过常备备用件,在 10 分钟内完成更换。看下面的"可用性与 MTTR"图表,你会看到仅通过缩短 MTTR,可用性就能大幅提升。
🙋
我还听说过"5个9"的说法。那是指可用性吗?
🎓
对,5个9 是指可用性 99.999%。9 字出现 5 次。要理解有多严格,计算年停机允许时间就行了。一年约 525600 分钟,所以 99.999% 意味着年停机只能约 5 分钟。3个9(99.9%)是年 8.8 小时,4个9(99.99%)是年 53 分钟。电话交换机、金融系统都以 5个9 为目标,但需要冗余、自动转移和备件常备,成本会大幅增加。
🙋
最后再问一个。"任务可靠度 R(t)"与可用性是不同的指标吗?
🎓
对,回答的问题不同。可用性问的是"全时间里有多少比例在运行"。任务可靠度 R(t) = e^(−t/MTBF) 问的是"在特定长度 t 的运行中,能否始终无故障地完成的概率"。比如卫星发射或无停机生产线的一个工段,"这段绝不能停机"的情况就会用到。同样的 MTBF,任务越长,R(t) 下降得越快。

常见问题

MTBF(Mean Time Between Failures,平均故障间隔)是可修复系统的指标,表示从一次故障到下一次故障的平均运行时间。MTTF(Mean Time To Failure,平均故障寿命)是不可修复产品(如灯泡、保险丝)的指标,表示从使用开始到故障的平均时间。本工具处理的是可修复系统,MTBF = 总运行时间 ÷ 故障次数。两者的最大区别在于是否包含修复时间 MTTR。
不一定。可用性由 A = MTBF ÷(MTBF+MTTR)决定,因此即使 MTBF 很长,如果 MTTR(修复时间)也很长,可用性也会很低。例如,即使 MTBF 为 10000 小时,如果每次修复需要 500 小时,可用性只有约 95.2%。反之,即使 MTBF 只有 730 小时,如果 MTTR 是 8 小时,可用性可以达到 98.9%。可用性可以通过减少故障和加快修复两个方向来改善,这是可靠性设计的关键。
5个9 是指可用性 99.999%,意味着在一年(8760小时=525600分钟)中,系统只允许停机约 5.3 分钟。3个9(99.9%)允许年停机约 8.8 小时,4个9(99.99%)允许约 53 分钟。电话交换机、关键服务器和金融系统通常以 5个9 为目标,但这需要冗余配置、自动故障转移和预备件常备,成本会大幅增加。
不同。MTBF 既不是寿命也不是保修期,只是统计上的"平均故障率"以时间形式表达。在故障率恒定的群体中,许多个体在 MTBF 时间之前就会故障。例如,标榜 MTBF 为 50000 小时的硬盘,保修只有 5 年(约 44000 小时)。MTBF 表示"当有多个这样的设备时,平均多久会有一个故障",而不是单个产品的寿命保证。

实际应用

数据中心·IT 基础设施:服务器、存储、网络设备的 SLA(服务级别协议)以可用性定义。"月均可用性 99.95% 以上"这样的合同值要求在设计阶段累加各组件的 MTBF 和 MTTR,包括是否冗余。缩短 MTTR 的无停机维护、热插拔、自动故障转移是提高可用性最具成本效益的投资之一。

制造业设备维护(OEE):工厂生产设备的可用性对应设备总效率 OEE 的三要素(时间可用性·性能可用性·产品合格率)中的时间可用性。通过监控 MTBF 发现劣化趋势,从突发故障维护转为计划维护或预测性维护。同样的设备,维修体制和备件库存不同会导致 MTTR 相差数倍,直接影响年产量。

航空·航天·国防:人工卫星和航空系统,任务可靠度 R(t) 是设计目标。从发射到运行结束"无法修复",所以问的不是可用性,而是"任务期间无故障完成的概率"。通过冗余和累加各子系统的故障率 λ 来验证是否满足要求的 R(t)。

采购·维保合同评估:购买或租赁设备时,可以从目录 MTBF 和维保 SLA 中的 MTTR 试算运行后的可用性和年停机时间。用本工具这样的简易计算,可以"根据这个 MTBF·MTTR,年停机会有多少小时",跨供应商比较提案变得可能,能定量讨论维保费用与停机损失的权衡。

常见误区与注意事项

最大的误解是将 MTBF 与寿命或保修期混淆。MTBF 不是单台产品的保证运行时间,而是多个产品群体的平均故障率的时间表示。若故障率服从恒定的指数分布,群体中约 63% 的个体会在 MTBF 时间之前故障。标榜"MTBF 100000小时"的硬盘保修只有 5 年(约 44000 小时),正是这个原因。把 MTBF 当成"寿命"来用,维护计划和备件手配都会偏离。

其次是不确认可用性的计算条件。同样是"99.9%",母数是 24 小时×365 天还是仅营业时间,含义完全不同。MTTR 是否包含"故障检测时间""备件采购周期""启动验证时间"也会大幅改变数值。实务中常见麻烦的是,供应商提的 MTTR 只包含"现场施工时间",不含检测延迟和备件等待。对比可用性时,必须统一"分母是什么,MTTR 包括什么"。

最后是混淆可用性高度与任务可靠度。可用性 99% 不等于长时间任务成功率高。MTBF 730 小时、可用性 98.9% 的系统,完成 720 小时连续任务的概率 R(t) 只有约 37%。"平时基本在运行"与"特定长段无故障完成"是截然不同的需求。可用性可以用冗余和快速修复提升,但任务可靠度的提升需要减少故障本身(延长 MTBF)或缩短任务。根据用途选对指标很关键。

使用指南

  1. 输入总运行时间(小时)。例如制造设备在过去 12 个月运行了 8000 小时,就输入 8000
  2. 输入该期间的故障次数。同一设备年故障 4 次,就输入 4,系统自动计算 MTBF(平均故障间隔)= 8000÷4=2000 小时
  3. 输入平均修复时间(MTTR),单位小时。过去修理实绩平均需要 8 小时,就输入 8
  4. 输入任务持续时间。例如飞机单次飞行 3 小时,就输入 3,计算该时间段的成功概率
  5. 点击模拟按钮,自动计算可用性(可用性)、故障率λ、年停机时间、可用性水平评估

具体计算示例

半导体制造设备实例:总运行时间 7200h、故障次数 3 次、平均修复时间 10h、任务持续时间 24h,计算结果为 MTBF=2400h、故障率λ=0.000417/h、可用性=99.59%、任务可靠度=99.00%、年停机时间=35.9h。此系统达不到"5个9(99.999%)"但接近"4个9(99.99%)"的可靠性水平。

实务注意事项

  1. MTBF 值由历史数据计算,最低需要 3~5 年运行实绩汇总才能提高统计可信度。单年数据易受季节波动影响
  2. MTTR 缩短是提升可用性的最大杠杆。将修复时间从 10h 减为 2h,即使 MTBF 不变,可用性也从 99.59% 提升到 99.96%
  3. 任务可靠度随时间指数衰减,所以 MTBF=1000h 的系统,100h 连续运行(可靠度 90.5%)与分 10 次各 1h 运行(可靠度 99.9%)大不相同
  4. 年停机时间不含计划保全时间,实际排期中 MTTR 实绩值通常乘以 1.2~1.5 倍余量系数,这是业界惯例