STI 音声明瞭度シミュレーター 戻る
建築音響

STI 音声明瞭度シミュレーター

Speech Transmission Index (STI) は、残響と暗騒音による音声の劣化を変調伝達関数 (MTF) から定量化する国際標準指標です。残響時間 T60・SNR・距離・室容積・指向性を動かして、教室・劇場・PA・避難放送の音声明瞭度をリアルタイムに評価できます。

パラメータ設定
残響時間 T60
s
音源停止後に音圧が 60 dB 減衰するまでの時間
信号レベル
dB
音源(話者・スピーカ)の 1 m 地点での音圧レベル
暗騒音
dB
空調・人ざわめき等の背景雑音(A 特性目安)
音源-聴者距離
m
室容積 V
教室≈200・講堂≈3000・体育館≈10000・空港ロビー≈30000
音源指向性 Q
無指向性=1、人の話声≈2、ホーン≈10、コラム≈20
計算結果
残響時間 T60 (s)
臨界距離 (m)
聴者位置 SNR (dB)
残響変調係数 m_rev
STI 値
明瞭度評価
室内音場アニメーション — 直接音・反射音・SNR ゾーン

黄色=音源、白=聴者。直接音線と反射音波の重ね合わせを表示し、聴者位置の SNR で背景色を緑(≥10 dB)/黄(0〜10 dB)/赤(<0 dB)に塗り分けます。

MTF — 変調周波数 vs m (残響+SNR 合成)
STI vs 残響時間 T60(現在 SNR 条件)
理論・主要公式

$$m_{rev}(F) = \frac{1}{\sqrt{1+\bigl(\frac{2\pi F\,T_{60}}{13.8}\bigr)^{2}}},\quad m_{snr} = \frac{1}{1+10^{-\mathrm{SNR}/10}}$$

変調伝達関数 (MTF)。F は変調周波数 [Hz]、T60 は残響時間 [s]、SNR は聴者位置の信号対雑音比 [dB]。残響と SNR の独立な劣化要因を MTF で合成する。

$$m_{k} = m_{rev,k}\cdot m_{snr,k},\quad \mathrm{SNR}_{eff} = 10\log_{10}\!\frac{\bar{m}}{1-\bar{m}}$$

帯域 k ごとの合成 m と、見かけの実効 SNR。実装では 0.63〜12.5 Hz の 14 変調周波数を平均して 1 オクターブ帯近似とした。

$$\mathrm{STI} = \frac{\mathrm{SNR}_{eff,\,clip} + 15}{30}\in[0,1]$$

STI 値は SNR_eff を ±15 dB でクリップした線形写像。0.45 以下=Poor、0.60〜0.75=Good、0.75 以上=Excellent(IEC 60268-16)。

STI による音声明瞭度評価

🙋
大きなホールで「アナウンスが何言ってるか分からない」って経験あるんですけど、あれって音量を上げれば解決するんですか?
🎓
音量を上げても解決しないのが面白いところでね。むしろ反射音が増えて残響が前の音と次の音を重ねてしまい、子音が「だぶる」ようになる。これを定量化するのが STI(Speech Transmission Index)で、IEC 60268-16 で規格化された 0〜1 のスコアなんだ。例えば 0.45 を切ると「単語認識率が一気に落ちる」境界で、避難放送 EVAC では法的に 0.50 以上が必要になる。
🙋
STI ってどうやって計算するんですか?SNR とは違うんですよね?
🎓
STI の核は変調伝達関数 MTF という考え方。人の話声は音節リズムが 4 Hz 前後、強勢が 1〜2 Hz と「ゆっくり強弱の山と谷」を持っていて、その変調が残響でぼやけたり、雑音で埋まったりする量を測るんだ。式で書くと m_rev = 1/√(1+(2πFT60/13.8)²) で、T60 が長いほど低変調周波数まで m が落ちる。これに SNR 由来の m_snr = 1/(1+10^(-SNR/10)) を掛け合わせて、見かけの実効 SNR から STI=(SNR_eff+15)/30 を出す。
🙋
なるほど、残響と雑音の両方が効くんですね。デフォルト(T60=1.2s, 信号70dB, 騒音50dB)だと STI=0.45 で「Poor」になってます。これ、普通の教室の値ですよね?
🎓
そう、まさにそこが問題なんだ。日本の小中学校の標準的な教室は T60≈0.7s 設計が望ましいんだけど、調査では実態が 1.0〜1.5s に達しているケースが多く、後ろの席の児童は「Poor」レベルの了解度で授業を受けている。学校はとくに ANSI S12.60 の推奨で「STI≥0.65・暗騒音≤35 dB(A)」が学童基準なんだ。試しに左の T60 を 0.7s、暗騒音を 40 dB に下げてみて。STI が一気に 0.7 台に跳ね上がるはず。
🙋
本当だ、STI 0.73 で「Good」になりました!じゃあ吸音材で残響を抑えるのが最強なんですね?
🎓
基本はそれが正解。ただし吸音は無限には効かない。T60 を 0.3s 切ると今度は「音が死ぬ」感じで歌や音楽が成り立たなくなる。だから多目的ホールは可動吸音体で残響を切り替える設計が多いんだ。あと意外な落とし穴が臨界距離——音源から離れて反射音が直接音と同じレベルになる距離で、本ツールでは「臨界距離」カードに出てる。デフォルトだと 1.65 m しかなくて、8 m 離れた聴者はほぼ反射音だけで聞いている状態。指向性 Q を上げる(コラムスピーカ)と臨界距離が伸びて、遠くでも直接音優位にできるよ。
🙋
空港のアナウンスがコラム型なのはそういう理由だったんですね!避難放送の設計、奥が深いです。
🎓
そうなんだ。日本の建築基準法・消防法では火災時の非常放送設備が必須だけど、IEC 60849 / EN 54-16 ではさらに「STI≥0.50 を全座席で確保」を要件にしている。広い空間ほど分散配置・遅延補正・指向性制御を組み合わせないと達成できない。STI は単なる数値じゃなく、「危機の瞬間に避難指示が伝わるか」という人命安全の指標でもあるんだよ。

よくある質問

STI(Speech Transmission Index)は IEC 60268-16 で規定された総合指標で、7オクターブ帯×14変調周波数の計 98 個の MTF を測定して算出します。RASTI は屋外用に簡略化した 2 帯のみの近似版で、現行規格では非推奨です。%ALcons(Articulation Loss of Consonants)は子音の聴取損失率(%)で、PA 業界で長く使われてきた指標で、おおむね STI≈0.5 が %ALcons=10% に対応します。建築音響では STI が国際的に標準化されており、本ツールも STI を採用しています。
用途別の推奨値は次の通りです。一般オフィス・会議室:STI ≥ 0.60(Good)、教室・講義室:STI ≥ 0.65(学童は集中力が大人の半分のため厳しめ)、劇場・コンサートホールの台詞部分:STI ≥ 0.55、避難放送 EVAC(IEC 60849):STI ≥ 0.50 が法的要件です。STI が 0.45 を下回ると単語認識率が急落し、「何か喋っているのは分かるが内容が理解できない」状態になります。
T60 を抑える吸音処理が最も効果的ですが、他にも (1) 信号レベルを上げて SNR を稼ぐ(ただし 80 dB 以上は耳障り)、(2) スピーカを聴者に近づけて直接音を増やす(分散配置・天井埋め込み)、(3) 指向性の高いコラムスピーカで反射を減らす、(4) 暗騒音を空調等で下げる、の 4 つが有効です。本ツールで指向性 Q や距離を動かすと、臨界距離が変化して直接音・反射音のバランスが変わる様子が観察できます。
人間の発話は音節リズムが約 4〜8 Hz、強勢パターンが 1〜2 Hz の変調成分を含み、これらが意味伝達の主役だからです。Steeneken と Houtgast は 0.63〜12.5 Hz の 14 変調周波数で MTF を測れば、母音・子音の認識度合いをほぼ再現できることを示しました。残響時間 T60 が長いと低周波変調まで平坦化されて MTF が落ちますが、特に音節レート 2〜4 Hz の劣化が了解度を大きく損ないます。

実世界での応用

学校・教育施設の音響設計:ANSI S12.60 や JIS Z 8731 で「教室の T60 ≤ 0.6 s・暗騒音 ≤ 35 dB(A)」が学童向けに推奨されています。STI 換算で 0.65 以上が目標で、これを満たさない教室では聴覚学習に依存する低学年や難聴児・第二言語学習者で学力差が広がります。設計段階で本ツールのような STI 推算を行い、吸音天井・カーペット・ブックシェルフ配置を決めます。

避難放送 EVAC・非常用放送設備:IEC 60849 / EN 54-16 / 日本の消防法は、非常放送の音声明瞭度を STI ≥ 0.50(全座席)で要求しています。空港ターミナル・地下街・大型ショッピングモール・スタジアムなど反響の激しい空間では、コラムスピーカの分散配置と遅延補正(電子的時間整合)を組み合わせ、各客席で直接音と反射音が「同位相で重なる」設計を行います。

劇場・コンサートホール・モスク:音楽は適度な残響(T60=1.6〜2.2 s)が必要ですが、台詞や朗読は STI ≥ 0.55 が望ましく、両立は難しい課題です。可動吸音バナー、回転式リバーバンチェンバ、電子音響強化(アクティブ音響)で残響時間を切り替える方式が現代の標準。モスクや教会では「祈り(音楽的)」と「説教(明瞭度)」の両立に同様の手法が使われます。

オープンプランオフィス・コールセンタ:近年の WELL Building Standard では会議室・電話ブースの STI ≥ 0.65 を要件としています。会話プライバシーとは逆方向の指標で、会議室では STI を上げ、フリーアドレスエリアではあえてマスキングノイズで STI を 0.30 程度に抑える「サウンドマスキング」設計が普及しています。

よくある誤解と注意点

まず最大の落とし穴が、「平均 T60 だけで STI を語ってしまう」こと。STI は本来 7 オクターブ帯(125 Hz〜8 kHz)の MTF を周波数重み付き加算する指標で、低周波(125〜250 Hz)の T60 だけが長いと「ブーミー」になり子音が埋もれます。本ツールは簡略化のため代表 T60 1 値で計算していますが、実測では各帯域の T60 が大きく違うことがあるので、低域吸音の不足は要注意です。詳細評価には測定器(B&K 2270 等)または OPENSTAGES, ODEON 等の音場シミュレーションが必要です。

次に、「SNR を稼げば残響が長くても STI は伸びる」という誤解。SNR と残響は MTF の中で独立な乗算項として効くため、片方が悪いと他方をいくら良くしても上限が決まります。例えば T60=2.5 s だと m_rev≈0.35 が頭打ちで、SNR を 30 dB に上げても STI は 0.5 程度で飽和します。残響が大きい空間では、まず吸音、次に SNR、最後に指向性、の順で改善するのが鉄則です。

最後に、「拡声器をたくさん付ければ明瞭度が上がる」という思い込み。スピーカを増やすと直接音は届きますが、各スピーカからの音が異なる経路で聴者に到達するため時間差で重なる「エコー」が発生し、かえって STI が悪化します。これを防ぐには、スピーカ間隔と聴者距離から遅延量を計算して DSP で時間整合を取る必要があります。空港等で「天井に小型スピーカが等間隔配置」されているのは、各ゾーンで聴者が「最寄り 1 本」の直接音優位になるよう設計されているからです。

使い方ガイド

  1. 残響時間 T60(秒)を入力:教室0.8s、劇場1.2s、小会議室0.5s など実測値または設計目標値を設定
  2. 信号レベル(dB)・暗騒音レベル(dB)・音源と聴者間の距離(m)を入力し、室容積(m³)を確認
  3. シミュレーター実行により IEC 60268-16 準拠の STI 値(0~1.0)と音声明瞭度評価(優/良/可/不可)を取得
  4. 必要に応じて T60 短縮(吸音材施工)や信号レベル上げ(スピーカー増設)で最適化

具体的な計算例

学校教室(容積300m³、T60=1.0s)で距離5mの教室放送を想定。信号レベル75dB、暗騒音50dB の場合:臨界距離は約2.8m、聴者位置の SNR は約25dB。残響変調係数 m_rev は0.62となり、結果 STI=0.68(良好・明瞭)と評価されます。同じ条件で T60 を0.6s に短縮(天井吸音パネル施工)するとSTI=0.76(優秀)に改善されます。

実務での注意点