🙋
機器のカタログに「MTBF 5万時間」とか書いてありますよね。あれって「5万時間は壊れません」っていう意味なんですか?
🎓
よくある誤解だね。MTBF は「平均故障間隔」で、ざっくり言うと「同じ機種をたくさん並べたとき、平均してどれくらいの間隔で1台が壊れるか」を表す統計値なんだ。1台ごとの寿命保証じゃない。故障率が一定の集団なら、MTBF より前に壊れる個体は山ほどある。「保証期間」とはまったく別物だと思っておいたほうがいい。
🙋
なるほど…。じゃあ実務で「このシステムは頼りになる」って言うとき、何の数字を見ればいいんですか?
🎓
一番よく使うのが「稼働率(アベイラビリティ)」だよ。A = MTBF ÷(MTBF+MTTR)。MTTR は平均修復時間、つまり壊れてから直るまでの時間。稼働率は「全時間のうち、システムがちゃんと動いて仕事ができている割合」なんだ。左で故障回数を増やすと MTBF が短くなって、稼働率がスッと下がるのが見えるはずだよ。
🙋
あ、本当だ。でも修復時間 MTTR を動かしても稼働率が変わりますね。MTBF を伸ばすのと、どっちが大事なんですか?
🎓
いい質問だ。実はそこが信頼性設計の肝でね。稼働率は「故障を減らす(MTBF を伸ばす)」方向と「修理を速くする(MTTR を縮める)」方向の、両方から上げられるんだ。例えばデータセンターのサーバなら、部品を二重化して故障そのものを減らすのも手だし、予備品を常備して交換を10分で終わらせるのも手。下の「稼働率と MTTR」グラフを見ると、MTTR を縮めるだけで稼働率がぐっと上がるのが分かるよ。
🙋
「ファイブナイン」って言葉も聞きます。あれは稼働率のことですか?
🎓
そう、ファイブナインは稼働率 99.999% のこと。9 が5つ並ぶからファイブナイン。これがどれだけ厳しいか実感するには、年間の停止許容時間を計算するといい。1年は約 52万5600分だから、99.999% だと止まっていいのは年間たった約5分。スリーナイン(99.9%)なら年8.8時間、フォーナイン(99.99%)なら年53分。電話交換機や金融システムはファイブナインを狙うけど、そのためには冗長化と自動フェイルオーバが必須で、コストは桁違いに上がるんだ。
🙋
最後にもうひとつ。「ミッション信頼度 R(t)」って稼働率とは別の数字なんですよね?
🎓
そう、答える質問が違うんだ。稼働率は「全時間のうち何割が動いているか」。ミッション信頼度 R(t) = e^(−t/MTBF) は「ある特定の長さ t の運用を、途中で一度も故障せずに完遂できる確率」。例えば人工衛星の打ち上げや、無停止で回したい連続運転プラントの一工程みたいに「この区間だけは絶対に止まってほしくない」という場面で効いてくる。同じ MTBF でも、ミッションが長いほど R(t) は指数関数的に下がっていくよ。
MTBF と MTTF はどう違いますか?
MTBF(Mean Time Between Failures、平均故障間隔)は修理して使い続ける「修理系」システムの指標で、ある故障から次の故障までの平均稼働時間です。MTTF(Mean Time To Failure、平均故障寿命)は電球やヒューズのように壊れたら交換する「非修理系」の指標で、使い始めから故障までの平均時間です。本ツールが扱うのは修理系で、MTBF = 総稼働時間 ÷ 故障回数 で求めます。修理時間 MTTR を含むかどうかが両者の最大の違いです。
MTBF が長ければ稼働率も高くなりますか?
必ずしもそうではありません。稼働率は A = MTBF ÷(MTBF+MTTR)で決まるため、MTBF が長くても MTTR(修復時間)が長ければ稼働率は下がります。例えば MTBF が 10000 時間でも、1回の修理に 500 時間かかれば稼働率は約 95.2% にとどまります。逆に MTBF が 730 時間と短くても MTTR が 8 時間なら稼働率は 98.9% です。稼働率は「故障を減らす」方向と「修理を速くする」方向の両方から改善できる、というのが信頼性設計の要点です。
「ファイブナイン(99.999%)」とは具体的にどのくらいですか?
ファイブナインは稼働率 99.999% を指し、1年(8760時間=525600分)のうち停止が許されるのは約 5.3 分だけ、という非常に厳しい水準です。スリーナイン(99.9%)なら年間約 8.8 時間、フォーナイン(99.99%)なら約 53 分の停止に相当します。電話交換機や基幹サーバ、金融システムなどでファイブナインが目標になりますが、これを達成するには冗長構成・自動フェイルオーバ・予備品の常備が不可欠で、コストも急増します。
MTBF は製品の寿命や保証期間と同じですか?
違います。MTBF は寿命でも保証期間でもなく、あくまで統計的な「平均の故障率」を時間に直したものです。故障率が一定の集団では、多くの個体は MTBF より前に故障します。例えば MTBF が 50000 時間のハードディスクでも、5年(約44000時間)使えば故障する確率は無視できません。MTBF は「この機種を多数並べたとき、平均してどれくらいの間隔で1台が壊れるか」を表す指標であり、1台ごとの寿命保証ではない点に注意が必要です。
データセンター・IT インフラ: サーバ、ストレージ、ネットワーク機器の SLA(サービス品質保証)は稼働率で定義されます。「月間稼働率 99.95% 以上」といった契約値を満たすため、設計段階で各構成要素の MTBF と MTTR を積み上げ、冗長化の有無を含めてシステム全体の稼働率を見積もります。MTTR を縮めるための無停止保守・ホットスワップ・自動フェイルオーバは、稼働率を上げる最も費用対効果の高い投資のひとつです。
製造業の設備保全(OEE): 工場の生産設備では、稼働率は設備総合効率 OEE の三要素(時間稼働率・性能稼働率・良品率)のうち時間稼働率に対応します。突発故障による停止を減らすため、MTBF を監視して劣化傾向を捉え、計画保全や予知保全に切り替える判断材料にします。同じ設備でも、修理体制と予備品在庫しだいで MTTR が数倍変わり、結果として年間生産量に直結します。
航空・宇宙・防衛: 人工衛星や航空機システムでは、ミッション信頼度 R(t) が設計目標になります。打ち上げから運用終了まで「修理ができない」前提のため、稼働率より「ミッション期間を無故障で完遂できる確率」が問われます。冗長系を組み、各サブシステムの故障率 λ を積み上げて、要求 R(t) を満たすかを検証します。
調達・保守契約の評価: 機器を購入・リースする側は、カタログ MTBF と保守 SLA の MTTR から、運用後の稼働率と年間ダウンタイムを試算します。本ツールのような簡易計算で「この MTBF・MTTR なら年間何時間止まるか」を把握しておくと、複数ベンダーの提案を同じ土俵で比較でき、保守費用と停止損失のトレードオフを定量的に議論できます。
まず最大の誤解が、「MTBF を寿命や保証期間と混同する」 ことです。MTBF は1台の製品が必ず動き続ける時間ではなく、多数の母集団に対する平均的な故障率を時間で表した統計量です。故障率が一定の指数分布に従うなら、ある母集団のうち約63%は MTBF の時間に達する前に故障します。「MTBF 10万時間」をうたうディスクでも、保証は5年(約4.4万時間)どまり、というのはこのためです。MTBF の数値を「個体の寿命」と読み替えると、保守計画も予備品手配も大きく外れます。
次に、「稼働率の計算条件を確認しない」 こと。同じ「99.9%」でも、24時間×365日を母数にするか、営業時間だけを母数にするかで意味がまったく違います。また MTTR に「故障の検知時間」「部品の調達リードタイム」「立ち上げ確認の時間」を含めるかどうかでも数値は大きく変わります。実務でトラブルになりやすいのが、ベンダーの提示する MTTR が「現地到着後の作業時間だけ」で、検知遅れや部品待ちを含まないケースです。稼働率を比較するときは、必ず「何を分母にし、MTTR に何を含めるか」を揃えてください。
最後に、「稼働率の高さとミッション信頼度を取り違える」 点。稼働率が 99% でも、長時間ミッションの成功率は別問題です。MTBF 730 時間・稼働率 98.9% のシステムでも、720 時間連続のミッションを無故障で終える確率 R(t) は約 37% しかありません。「ふだんはほぼ動いている」ことと「特定の長い区間を一度も止まらず走り切る」ことは、まったく別の要求です。稼働率は冗長化と速い修理で上げられますが、ミッション信頼度を上げるには故障そのものを減らす(MTBF を伸ばす)か、ミッションを短く区切るしかありません。用途に応じて、見るべき指標を取り違えないことが重要です。