確率分布シミュレーター 戻る
統計・確率論

確率分布シミュレーター

正規・ポアソン・二項など9種の分布のPDFとCDFをリアルタイム表示。パラメータスライダーで形状変化を確認し、モンテカルロサンプリングで理論と実験の一致を体験できます。

分布選択

プリセット

区間確率 P(a ≤ X ≤ b)

a = b =
計算結果
平均 (μ)
分散 (σ²)
歪度
超過尖度
P(a≤X≤b)
PDF(確率密度関数)と CDF(累積分布関数)
モンテカルロ ヒストグラム vs 理論 PDF
理論・主要公式

$$f(x;\mu,\sigma) = \frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$

正規分布 PDF:\(\mu\) 平均、\(\sigma\) 標準偏差。68-95-99.7則が成立

$$f(x;\lambda) = \lambda e^{-\lambda x}, \quad f(x;a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}$$

指数分布(左)とベータ分布(右):信頼区間・ベイズ統計に利用

確率分布シミュレーターとは

🙋
PDFとCDFって、グラフを見てもいまいち違いが分かりません。どう使い分けるんですか?
🎓
大まかに言うと、PDFは「確率の密度」、CDFは「確率の累積」だね。例えば、製品の寿命が指数分布に従うとき、PDFは「ちょうど100時間で故障する確率密度」、CDFは「100時間以内に故障する確率」を表すんだ。上のセレクトボックスで「指数分布」を選んで、表示をPDFとCDFで切り替えてみると、その関係が一目瞭然だよ。
🙋
え、確率密度って確率じゃないんですか?「NovaSolver Project」のボタンを押すと、ヒストグラムとPDFの線が重なるのはなぜ?
🎓
良いところに気づいたね。PDFの値そのものは確率じゃなくて「密度」。ヒストグラムの棒の面積が確率になるんだ。モンテカルロサンプリングでN=2000個の乱数を生成すると、そのヒストグラムの形が、理論的なPDFの形に近づく。これが「大数の法則」の目に見える形なんだ。正規分布で平均μのスライダーを動かしてからサンプリングすると、ヒストグラム全体が動くのが確認できるよ。
🙋
分布によって形が全然違いますね。歪度や尖度のパラメータをいじると、どういう現象を表せるんですか?
🎓
実務では、例えば金融リスクの分析で株価リターンの分布を調べると、正規分布より「裾が重い」(尖度が正)ことが多いんだ。それは暴落や暴騰が理論より頻繁に起きることを意味する。シミュレーターで「t分布」を選び、自由度のパラメータを小さくしてみて。正規分布より両端が盛り上がる、つまりリスクの高い事象が起こりやすい分布になるのがわかるよね。

物理モデルと主要な数式

確率分布の根幹をなす確率密度関数(PDF)は、連続確率変数$X$がある値$x$の近傍に存在する相対的な可能性を表します。確率そのものではなく、積分することで確率が得られます。

$$ f_X(x) = \frac{d}{dx}F_X(x) $$

ここで、$f_X(x)$は確率密度関数、$F_X(x)$は後述の累積分布関数(CDF)です。$f_X(x) \ge 0$であり、全区間での積分は1になります:$\int_{-\infty}^{\infty}f_X(x) dx = 1$。

累積分布関数(CDF)は、確率変数$X$が特定の値$x$以下を取る確率を直接与えます。全ての確率分布の基本となる関数です。

$$ F_X(x) = P(X \le x) = \int_{-\infty}^{x} f_X(t) dt $$

$F_X(x)$は$x$について単調非減少で、$0$から$1$の値を取ります。このツールでCDFのグラフが常に右肩上がりで0から1に収束するのは、この性質によるものです。

よくある質問

スライダーの値が変化しても、自動更新がオフになっている可能性があります。画面下部の「自動更新」トグルが有効か確認してください。手動更新モードでは「更新」ボタンを押すまで反映されません。
サンプル数が少ないと統計的ばらつきが生じます。サンプル数を増やす(例:1000→10000)と理論曲線に近づきます。また、乱数シードが固定されている場合は、リセットして再試行してください。
PDF(確率密度関数)は山の高さがその値の相対的な出やすさを示します。CDF(累積分布関数)は曲線の値がその値以下になる確率を表します。例えばCDFが0.8の点は、80%の確率でその値以下になることを意味します。
中心極限定理によるものです。nが大きくなると二項分布の形状が左右対称の釣鐘型に近づき、平均np、分散np(1-p)の正規分布で近似できます。スライダーでnを5から50に変えるとその様子を確認できます。

実世界での応用

品質管理・信頼性工学:製品の寿命や故障間隔は指数分布やワイブル分布(ガンマ分布の一種)でモデル化されます。CDFを用いて「保証期間内に故障する確率」を計算し、保証方針を決定します。

金融工学・リスク管理:株価リターンの分布は正規分布では説明できない「裾の重さ」を持つため、t分布や一般化双曲型分布が用いられます。VaR(バリュー・アット・リスク)はCDFの裾の部分からリスク額を算定します。

保険数理:発生頻度が低いが発生すると巨額の損害をもたらす事故(地震、津波)の発生回数はポアソン分布、一回あたりの損害額は対数正規分布やパレート分布でモデル化され、保険料の算出に使われます。

機械学習・ベイズ統計:未知のパラメータの事前分布として、確率は[0,1]の範囲なのでベータ分布が、正の値なのでガンマ分布が頻繁に用いられます。マルコフ連鎖モンテカルロ法(MCMC)は、ここで体験するモンテカルロサンプリングの発展形です。

よくある誤解と注意点

まず、「PDFの高さは確率そのものではない」という点を押さえよう。例えば、平均0、標準偏差0.5の正規分布のPDFは、x=0で約0.8という高い値を持つ。これは「0が一番出やすい」という意味だが、「X=0となる確率が0.8」というわけではない。連続分布では一点の確率は0だからね。確率を知りたければ、区間を指定してPDFの下の面積を考える必要がある。ツールで「正規分布」を選び、PDF表示でx=0から0.5までの範囲を目視で確認してみて。この面積が、確率変数がその区間に入る確率に相当するんだ。

次に、分布のパラメータ設定で尺度を混同しないこと。二項分布の試行回数nと成功確率p、ポアソン分布の平均発生回数λは、現実のデータに合わせて単位をきちんと考える必要がある。例えば、「1時間当たり平均3回到着する客」をポアソン分布でモデル化する場合、分析したい時間枠が30分ならλ=1.5に設定しなければならない。ツールでλを3から1.5に変えると、分布の山の位置が左に移動するのが確認できるよ。この設定ミスは、予測結果を大きく歪めるので要注意だ。

最後に、モンテカルロサンプリングの「N」の値は大きければ良いわけではないという実務的な落とし穴。確かにN=2000よりN=10000の方が理論的なPDFに近いヒストグラムになるが、計算コストと精度のトレードオフを考えよう。特に、まれにしか起きない「テールリスク」を評価したい場合、単純にNを増やすよりも、重点サンプリングなどの高度な手法が必要になる。ツールで「t分布(自由度3)」を選び、N=1000で何度も「サンプリング」ボタンを押して確認してみて。ヒストグラムの両端(裾)の形が実行毎に大きくばらつくはずだ。これが、稀な事象のシミュレーションが難しい理由の一端なんだ。

使い方ガイド

  1. 分布タイプを選択(正規分布、ポアソン分布、二項分布など9種類)し、intAとintBで分布のパラメータを設定
  2. dpv_${param.id}でPDF(確率密度関数)またはCDF(累積分布関数)の表示を切り替え、リアルタイムで曲線を確認
  3. dp_${param.id}でサンプルサイズ(100~10000点)を指定してモンテカルロサンプリング実行し、理論値と実験値の一致度を検証

具体的な計算例

製品検査データの解析では、不良率λ=0.05のポアソン分布を設定(intA=0.05)。1時間当たり平均不良件数の確率を計算する際、サンプルサイズ5000点でモンテカルロシミュレーション実行すると、理論PDF(λ=0.05)と実験値の誤差が0.3%以下に収束。正規分布での品質管理では平均μ=500g、標準偏差σ=2gの製品重量について、CDFから490g以下の不良率が2.28%と確認できます。

実務での注意点