仮説検定(z検定・t検定) 戻る
数理・統計

仮説検定(z検定・t検定)

1標本z検定・t検定・2標本t検定をインタラクティブに実施。p値・棄却域・Cohen's dをリアルタイム計算し、分布グラフで直感的に理解。

検定設定
検定の種類
対立仮説の方向
有意水準 α
標本 1
標本平均 x̄₁
標本標準偏差 s(またはσ)
標本サイズ n₁
帰無仮説の母平均 μ₀
標本 2
標本平均 x̄₂
標本標準偏差 s₂
標本サイズ n₂
計算結果
検定統計量 t
p 値
棄却臨界値
自由度 df
Cohen's d
分布と棄却域
理論・主要公式

1標本 z 検定:$z = \dfrac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$

1標本 t 検定:$t = \dfrac{\bar{x} - \mu_0}{s / \sqrt{n}}$,自由度 $df = n-1$

2標本 t 検定:$t = \dfrac{\bar{x}_1 - \bar{x}_2}{s_p\sqrt{1/n_1+1/n_2}}$,$s_p^2 = \dfrac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$

効果量:Cohen's $d = \dfrac{|\bar{x} - \mu_0|}{s}$(小:0.2, 中:0.5, 大:0.8)

仮説検定(z検定・t検定)とは

🙋
仮説検定って、何を「検定」してるんですか?例えば、このシミュレーターで「標本平均」と「母平均」を比べてるみたいですが。
🎓
大まかに言うと、「観測された差が、単なる偶然で出たものなのか、それとも本当に差があるのか」を確率的に判定する方法だよ。例えば、新しい製造工程で作った製品の強度平均が、従来の100MPaから105MPaになったとする。この5MPaの差が「本当に工程改善の効果なのか、たまたま測定したサンプルが良かっただけなのか」を検証するんだ。シミュレーターの「標本平均 x̄₁」と「帰無仮説の母平均 μ₀」の値を変えてみると、グラフとp値がどう変わるか、すぐに体感できるよ。
🙋
z検定とt検定、どっちを使えばいいか迷います。上のパラメータで「標本標準偏差 s」と書いてあるけど、これが鍵なんですか?
🎓
その通り!実務で一番多い判断基準だ。母集団の標準偏差σが「既知」ならz検定、「未知」で標本から推定したsを使うならt検定を使う。でも、現実の工学データでσがよく分かるケースはほとんどないから、ほぼt検定が使われると思っていい。試しに、sの値を大きくして確認してみて。検定統計量tが小さくなって、同じ差でも「有意」になりにくくなるのが分かるよ。バラツキが大きいと差を検出しにくくなるんだ。
🙋
p値が0.05を下回ったら「有意」って言いますけど、それだけで「差がある」って言い切っていいんですか?「Cohen's d」って出てくる指標は何ですか?
🎓
良い質問だ!p値は「差がある確からしさ」、Cohen's dは「差の大きさ」を表す別の指標なんだ。p値はサンプルサイズ「n₁」を大きくすると小さくなりやすく、小さな差でも「有意」になり得る。一方、Cohen's dはサンプルサイズに影響されず、実質的な効果の大きさを教えてくれる。例えば、材料の強度が1MPa向上しても、ばらつきが大きければCohen's dは小さい。シミュレーターで両方を見比べることで、結果の解釈が深まるよ。

よくある質問

母標準偏差が既知で標本サイズが大きい(目安30以上)場合はz検定、母標準偏差が未知の場合はt検定を使います。実際のデータ分析では母標準偏差が既知であることは稀なため、多くの実務ではt検定が推奨されます。本ツールでは両方試して結果の違いを比較できます。
分布グラフ上で、棄却域は有意水準(例:5%)に対応する両端の色付き領域として表示されます。計算された検定統計量がこの領域内にプロットされると「有意差あり」と判定されます。p値はその統計量より外側の面積に相当し、値が小さいほど帰無仮説が起こりにくいことを示します。
一般的な目安として、d=0.2は「小」、0.5は「中」、0.8以上は「大」の効果と解釈されます。ただし、これは分野によって異なり、医学や心理学では0.8でも大きな効果と見なされます。p値だけに頼らず、この効果量も併せて結果の実質的な重要性を判断してください。
本ツールでは、等分散を仮定しない「ウェルチのt検定」を自動的に選択できます。等分散性が疑われる場合や標本サイズが大きく異なる場合は、ウェルチの検定を使用するのが安全です。スライダーや入力欄で設定を切り替え、両方の結果を比較して解釈の違いを確認することをお勧めします。

実世界での応用

材料試験・品質管理:新規調達した材料の強度が規格値(μ₀)を満たしているかどうかを、少数の試験片(標本)から統計的に判定します。t検定を用いてロットの合否を判断し、Cohen's dで規格からの逸脱の大きさを評価します。

設計変更の効果検証:部品の設計をAからBに変更した後、耐久性に差があるかどうかを検証します。変更前後のサンプルデータを収集し、2標本t検定(シミュレーターのx̄₂, s₂, n₂を使用)を適用して、性能向上が統計的に有意かどうかを判断します。

シミュレーション結果の検証:CAEシミュレーションで予測された応力値と、実物試験で測定された応力値の平均に乖離がないか(差が0か)を検定します。シミュレーションモデルの精度を統計的に評価する重要なプロセスです。

製造工程の改善評価:生産ラインに導入した新装置が、製品の寸法精度(ばらつきs)を変化させずに、平均値(x̄)を目標値に近づけているかどうかを検定します。工程改善の効果を定量化し、投資対効果を論理的に説明するために用いられます。

よくある誤解と注意点

このシミュレーターで遊んでみると、いくつか「あれ?」と思うポイントが出てくるはずだ。まず大きな誤解が、「p値が小さい = 効果が大きい」という考え方。これは完全に間違いだ。p値はあくまで「偶然でその差が生じる確率の目安」に過ぎない。例えば、サンプルサイズ「n₁」を1000くらいの大きな値に設定してみてくれ。すると、標本平均と母平均の差がほんのわずか(例えば100MPaと100.5MPa)でも、p値が0.05を下回って「有意」になってしまう。これは差が「確からしい」ことを示すが、実務的に0.5MPaの差に意味があるかは別問題。そこでCohen's dを見る癖をつけよう。この例だとdは非常に小さく、実質的な効果はほぼ無いと判断できる。

次に、「片側検定」と「両側検定」の選択は慎重に。シミュレーターの「対立仮説」で選べるが、「平均が異なる」のか「平均が大きい(or小さい)」のかで、棄却域とp値がまるで変わる。例えば、材料の強度が「低下していないこと」だけを確認したい品質検査では、片側検定(大きい方)を使う。安易に両側検定を使うと、検出力が落ちて本当は存在する差を見逃すリスクがある。

最後に、「正規性」の前提を忘れないで。t検定はデータが正規分布に従うことを暗に仮定している。現実の工学データ、特に摩耗量や破壊寿命などは対数正規分布に従うことも多い。そんなデータをそのままt検定にかけると、誤った結論を導く可能性がある。まずはヒストグラムやQ-Qプロットでデータの分布を確認するのが鉄則だ。