z検定とt検定の使い分けはどうすればよいですか？

母標準偏差σが既知の場合はz検定を使います。σが未知でサンプルから標準偏差sを推定する場合はt検定を使います。実際にはσが既知なケースは少ないため、一般にt検定が用いられます。サンプルサイズが大きい（n≥30以上）場合、t分布は正規分布に近づくため両者の結果はほぼ一致します。

p値とは何ですか？どう解釈すればよいですか？

p値は「帰無仮説H₀が真であると仮定した場合に、観測された検定統計量以上に極端な値が得られる確率」です。p値が有意水準α（例：0.05）より小さければ帰無仮説を棄却し、対立仮説を採択します。p値は効果の大きさを示すものではなく、有意差の有無を示すものです。

Cohen's d（効果量）はどのような意味がありますか？

Cohen's d = |x̄ - μ₀| / s は効果の実際の大きさを標準化した指標です。d=0.2は小さい効果、d=0.5は中程度、d=0.8以上は大きい効果とされます。サンプルサイズが大きいと統計的には有意になりやすいため、p値だけでなくCohen's dで実質的な重要性を判断することが重要です。

仮説検定はCAE・品質管理でどう使われますか？

CAE・品質管理での主な用途：①材料試験でのロット間差異の有意性確認、②シミュレーションと実験値の乖離評価、③製造工程改善前後の性能比較、④設計パラメータの感度分析。特に2標本t検定は新旧設計の比較や工程A・Bの品質差の検証に広く使われます。

仮説検定（z/t検定）シミュレーター — 無料オンライン計算機

検定設定

検定の種類

対立仮説の方向

有意水準 α

標本 1

標本平均 x̄₁

標本標準偏差 s（またはσ）

標本サイズ n₁

帰無仮説の母平均 μ₀

標本 2

標本平均 x̄₂

標本標準偏差 s₂

標本サイズ n₂

計算結果

—

検定統計量 t

—

p 値

—

棄却臨界値

—

自由度 df

—

Cohen's d

分布と棄却域

理論・主要公式

1標本 z 検定：$z = \dfrac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$

1標本 t 検定：$t = \dfrac{\bar{x} - \mu_0}{s / \sqrt{n}}$，自由度 $df = n-1$

2標本 t 検定：$t = \dfrac{\bar{x}_1 - \bar{x}_2}{s_p\sqrt{1/n_1+1/n_2}}$，$s_p^2 = \dfrac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$

効果量：Cohen's $d = \dfrac{|\bar{x} - \mu_0|}{s}$（小:0.2, 中:0.5, 大:0.8）

仮説検定（z検定・t検定）とは

🙋

仮説検定って、何を「検定」してるんですか？例えば、このシミュレーターで「標本平均」と「母平均」を比べてるみたいですが。

🎓

大まかに言うと、「観測された差が、単なる偶然で出たものなのか、それとも本当に差があるのか」を確率的に判定する方法だよ。例えば、新しい製造工程で作った製品の強度平均が、従来の100MPaから105MPaになったとする。この5MPaの差が「本当に工程改善の効果なのか、たまたま測定したサンプルが良かっただけなのか」を検証するんだ。シミュレーターの「標本平均 x̄₁」と「帰無仮説の母平均 μ₀」の値を変えてみると、グラフとp値がどう変わるか、すぐに体感できるよ。

🙋

z検定とt検定、どっちを使えばいいか迷います。上のパラメータで「標本標準偏差 s」と書いてあるけど、これが鍵なんですか？

🎓

その通り！実務で一番多い判断基準だ。母集団の標準偏差σが「既知」ならz検定、「未知」で標本から推定したsを使うならt検定を使う。でも、現実の工学データでσがよく分かるケースはほとんどないから、ほぼt検定が使われると思っていい。試しに、sの値を大きくして確認してみて。検定統計量tが小さくなって、同じ差でも「有意」になりにくくなるのが分かるよ。バラツキが大きいと差を検出しにくくなるんだ。

🙋

p値が0.05を下回ったら「有意」って言いますけど、それだけで「差がある」って言い切っていいんですか？「Cohen's d」って出てくる指標は何ですか？

🎓

良い質問だ！p値は「差がある確からしさ」、Cohen's dは「差の大きさ」を表す別の指標なんだ。p値はサンプルサイズ「n₁」を大きくすると小さくなりやすく、小さな差でも「有意」になり得る。一方、Cohen's dはサンプルサイズに影響されず、実質的な効果の大きさを教えてくれる。例えば、材料の強度が1MPa向上しても、ばらつきが大きければCohen's dは小さい。シミュレーターで両方を見比べることで、結果の解釈が深まるよ。

よくある質問

母標準偏差が既知で標本サイズが大きい（目安30以上）場合はz検定、母標準偏差が未知の場合はt検定を使います。実際のデータ分析では母標準偏差が既知であることは稀なため、多くの実務ではt検定が推奨されます。本ツールでは両方試して結果の違いを比較できます。

分布グラフ上で、棄却域は有意水準（例：5%）に対応する両端の色付き領域として表示されます。計算された検定統計量がこの領域内にプロットされると「有意差あり」と判定されます。p値はその統計量より外側の面積に相当し、値が小さいほど帰無仮説が起こりにくいことを示します。

一般的な目安として、d=0.2は「小」、0.5は「中」、0.8以上は「大」の効果と解釈されます。ただし、これは分野によって異なり、医学や心理学では0.8でも大きな効果と見なされます。p値だけに頼らず、この効果量も併せて結果の実質的な重要性を判断してください。

本ツールでは、等分散を仮定しない「ウェルチのt検定」を自動的に選択できます。等分散性が疑われる場合や標本サイズが大きく異なる場合は、ウェルチの検定を使用するのが安全です。スライダーや入力欄で設定を切り替え、両方の結果を比較して解釈の違いを確認することをお勧めします。

実世界での応用

材料試験・品質管理：新規調達した材料の強度が規格値（μ₀）を満たしているかどうかを、少数の試験片（標本）から統計的に判定します。t検定を用いてロットの合否を判断し、Cohen's dで規格からの逸脱の大きさを評価します。

設計変更の効果検証：部品の設計をAからBに変更した後、耐久性に差があるかどうかを検証します。変更前後のサンプルデータを収集し、2標本t検定（シミュレーターのx̄₂, s₂, n₂を使用）を適用して、性能向上が統計的に有意かどうかを判断します。

シミュレーション結果の検証：CAEシミュレーションで予測された応力値と、実物試験で測定された応力値の平均に乖離がないか（差が0か）を検定します。シミュレーションモデルの精度を統計的に評価する重要なプロセスです。

製造工程の改善評価：生産ラインに導入した新装置が、製品の寸法精度（ばらつきs）を変化させずに、平均値（x̄）を目標値に近づけているかどうかを検定します。工程改善の効果を定量化し、投資対効果を論理的に説明するために用いられます。

よくある誤解と注意点

このシミュレーターで遊んでみると、いくつか「あれ？」と思うポイントが出てくるはずだ。まず大きな誤解が、「p値が小さい = 効果が大きい」という考え方。これは完全に間違いだ。p値はあくまで「偶然でその差が生じる確率の目安」に過ぎない。例えば、サンプルサイズ「n₁」を1000くらいの大きな値に設定してみてくれ。すると、標本平均と母平均の差がほんのわずか（例えば100MPaと100.5MPa）でも、p値が0.05を下回って「有意」になってしまう。これは差が「確からしい」ことを示すが、実務的に0.5MPaの差に意味があるかは別問題。そこでCohen's dを見る癖をつけよう。この例だとdは非常に小さく、実質的な効果はほぼ無いと判断できる。

次に、「片側検定」と「両側検定」の選択は慎重に。シミュレーターの「対立仮説」で選べるが、「平均が異なる」のか「平均が大きい（or小さい）」のかで、棄却域とp値がまるで変わる。例えば、材料の強度が「低下していないこと」だけを確認したい品質検査では、片側検定（大きい方）を使う。安易に両側検定を使うと、検出力が落ちて本当は存在する差を見逃すリスクがある。

最後に、「正規性」の前提を忘れないで。t検定はデータが正規分布に従うことを暗に仮定している。現実の工学データ、特に摩耗量や破壊寿命などは対数正規分布に従うことも多い。そんなデータをそのままt検定にかけると、誤った結論を導く可能性がある。まずはヒストグラムやQ-Qプロットでデータの分布を確認するのが鉄則だ。

仮説検定（z検定・t検定）

仮説検定（z検定・t検定）とは

よくある質問

実世界での応用

よくある誤解と注意点

関連ツール