中心極限定理シミュレーター 戻る
確率・統計

中心極限定理シミュレーター

一様・指数・双峰・歪み分布から標本を繰り返し抽出。サンプルサイズ n を変えると、どんな分布の母集団でも標本平均が正規分布に収束していく様子をリアルタイムで観察できます。

パラメータ設定

プリセット

計算結果
標本平均の平均
母平均 μ
観測 SE(実績)
理論 SE = σ/√n
計算待ち
メイン

青バー:標本平均のヒストグラム 赤曲線:理論正規分布

人口

選択した母分布の形状(10,000サンプルのヒストグラム)

Se

理論 SE = σ/√n(緑線)と各 n での実測 SE(青点)。n 増大に伴いSEが減少する様子。

理論・主要公式

$\bar{X}_n = \dfrac{1}{n}\sum_{i=1}^n X_i \xrightarrow{d} \mathcal{N}\!\left(\mu,\,\dfrac{\sigma^2}{n}\right)$

標準誤差(SE):$\text{SE} = \dfrac{\sigma}{\sqrt{n}}$

Berry-Esseen 誤差上界:$\sup_x |F_n(x) - \Phi(x)| \leq \dfrac{C\rho}{\sigma^3\sqrt{n}}$

🙋 中心極限定理ってそんなに重要なの?

🙋
中心極限定理って「サンプル数が増えると正規分布になる」って話ですよね?でも、指数分布とか非常に非対称な分布でも本当に正規になるんですか?
🎓
なるんだよ、それが定理の凄さ。試しにこのシミュレーターで「指数分布」を選んで n=5 にしてみて。ヒストグラムは右歪みのはずだ。次に n=50 にすると…かなり釣り鐘型になってくる。元の形を問わず収束するのが CLT の核心なんだ。
🙋
本当だ!n=5 だと確かに歪んでるけど、n=50 だとかなりきれいになってますね。でも「どれくらいのn」って判断はどうするんですか?
🎓
経験則で「n ≥ 30」が使われることが多い。でも厳密には Berry-Esseen 定理があって、正規近似誤差が Cρ/(σ³√n) 以下に収まることが保証されてる。ρ は3次絶対モーメントで、分布の歪み度合いが入ってくる。双峰分布みたいに歪みが大きいと、もっと大きな n が要る。
🙋
「標準誤差が σ/√n」という式がありますよね。n=100 にすると n=25 の場合より精度がどのくらい違うんですか?
🎓
√100 = 10、√25 = 5 だから SE は半分になる。「SE vs n」タブを見ると視覚的にわかるが、n を4倍にしないと精度は2倍にならないんだよ。これが統計調査でサンプルサイズを増やすのがコスト的に大変な理由でもある。
🙋
製造現場の品質管理でも使うんですか?
🎓
まさに。X̄-R 管理図はその典型例で、製造ラインから n 個ずつサンプルを取って「その平均が μ ± 3σ/√n の範囲内か」を監視する。これが異常検知の管理限界線になってる。CLT のおかげで、元の寸法分布が何であっても平均の分布は正規と見なせて、管理限界を設定できるわけだ。
🙋
コーシー分布みたいに「分散が無限大」の分布だと CLT が成り立たないって聞いたことがあります。実際どうなるんですか?
🎓
コーシー分布から n=1000 でも標本平均を取ると、またコーシー分布になる。平均・分散が存在しないから CLT の前提が崩れる。実は金融のファット・テール(裾が重い)分布も通常の CLT が使いにくいことが知られていて、代わりに「α-安定分布への収束」という一般化定理が必要になる。現実は正規で近似できると思わないことが重要だよ。

よくある質問

有限の平均 μ と分散 σ² を持つ独立同分布(i.i.d.)の確率変数に対して成り立ちます。コーシー分布のように分散が無限大の分布は例外です。また、独立性が崩れる場合(時系列データなど)は別の拡張定理が必要です。
正規近似の精度という意味ではyes。ただしコストと見合わせが必要です。SE = σ/√n なのでn を 4倍にしないと精度(SE)は 2倍になりません。統計学的には「十分大きいn」とは分布の形次第ですが、対称な分布なら n = 30、歪みが大きい場合は n = 50〜100 が実務の目安です。
標準偏差 σ は個々のデータのばらつきを表し、標準誤差 SE = σ/√n は標本平均のばらつきを表します。信頼区間の計算には SE を使います。よく混同されますが、SE は n が増えると小さくなり、σ は n に依存しません。
CLT による正規近似の誤差に対する定量的な上界を与えます。具体的には |F_n(x) - Φ(x)| ≤ Cρ/(σ³√n) と表せ、最良の定数は C ≈ 0.4748 です(Shevtsova 2010)。分布の3次モーメント ρ が大きい(歪みが強い)ほど、同じ n でも近似精度が低いことを示しています。
製造ラインからサンプルを n 個取り、その平均 X̄ を計算し続けます。CLT により X̄ の分布は正規分布 N(μ, σ²/n) と近似できるため、管理限界 UCL/LCL = μ ± 3σ/√n を設定できます。この外れが起きる確率は理論上 0.27% と定量化でき、異常検知の判断基準になります(X̄-R 管理図)。

中心極限定理シミュレーターとは

中心極限定理シミュレーターの物理モデルでは、母集団分布として一様分布、指数分布、双峰分布、歪み分布の4種類を用意しています。各分布からサンプルサイズ \(n\) の標本を繰り返し抽出し、その標本平均 \(\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i\) を計算します。母集団の平均を \(\mu\)、分散を \(\sigma^2\) とすると、標本平均の期待値は \(\mu\)、分散は \(\sigma^2 / n\) となります。シミュレーションでは、抽出回数を増やすごとに標本平均のヒストグラムが形成され、その形状が正規分布 \(\mathcal{N}(\mu, \sigma^2/n)\) に近づく様子をリアルタイムで観察できます。特に、母集団が非正規分布であっても、\(n\) を大きくするほど標本平均の分布は正規分布に収束します。この収束の速さは母集団の歪みや尖りに依存し、例えば指数分布では \(n\) が30程度でほぼ正規分布と見なせます。

実世界での応用

産業での実際の使用例(自動車部品の品質管理)
自動車業界では、エンジンバルブのばねの疲労寿命を評価する際に本シミュレーターの考え方が活用されています。ばねの材料強度や製造ばらつきは一様分布に近い特性を示しますが、複数ロットからn=30以上のサンプルを抽出して平均寿命を計算すると、その分布が正規分布に近似します。これにより、トヨタやデンソーなどの部品メーカーは、少数の試験データから不良発生確率を推定し、工程管理の基準値を合理的に設定しています。

研究・教育での活用
大学の統計学入門や実験計画法の講義では、学生が母集団分布の形状を変えながら標本平均の収束を視覚的に理解する教材として利用されています。特に、歪んだ分布や双峰分布から抽出した場合でも、サンプルサイズを増やすとヒストグラムが釣鐘型に近づく現象をリアルタイムで観察できるため、中心極限定理の直感的な理解が促進されます。

CAE解析との連携や実務での位置付け
CAEシミュレーションでは、入力パラメータ(材料物性や荷重条件)にばらつきがある場合、モンテカルロ法と組み合わせて出力の信頼区間を評価します。本シミュレーターの原理を応用し、CAE解析の前段階でサンプルサイズ設計を行い、計算コストと精度のバランスを最適化します。実務では、設計検証の初期段階で「何回のシミュレーションを実行すれば結果が安定するか」を判断する基準として位置づけられています。

よくある誤解と注意点

「サンプルサイズが大きければどんなデータでも正規分布と見なしてよい」と思いがちですが、実際には中心極限定理が保証するのは「標本平均の分布」の正規性であって、元の個々のデータの分布が正規分布になるわけではありません。例えば母集団が二峰性の分布でも、標本平均のヒストグラムはnが大きくなるにつれて正規分布に近づきますが、生データ自体は依然として二峰性のままです。分析の際は、標本平均を用いる検定(t検定など)にはこの定理が適用できる一方、個々の観測値に対して正規性を仮定する手法には注意が必要です。

また、「n=30以上なら必ず正規分布に収束する」と思いがちですが、実際には母集団の分布の歪みや裾の重さによって必要なサンプルサイズは大きく異なります。例えば指数分布のように強い歪みを持つ分布では、n=30でも標本平均の分布が左右非対称なままであることが多く、n=100以上が必要なケースもあります。シミュレーターでnを少しずつ変えて収束の速さを確認し、母集団の形状に応じて必要なサンプルサイズを判断する習慣が重要です。