正規・ポアソン・二項など9種の分布のPDFとCDFをリアルタイム表示。パラメータスライダーで形状変化を確認し、モンテカルロサンプリングで理論と実験の一致を体験できます。
確率分布の根幹をなす確率密度関数(PDF)は、連続確率変数$X$がある値$x$の近傍に存在する相対的な可能性を表します。確率そのものではなく、積分することで確率が得られます。
$$ f_X(x) = \frac{d}{dx}F_X(x) $$ここで、$f_X(x)$は確率密度関数、$F_X(x)$は後述の累積分布関数(CDF)です。$f_X(x) \ge 0$であり、全区間での積分は1になります:$\int_{-\infty}^{\infty}f_X(x) dx = 1$。
累積分布関数(CDF)は、確率変数$X$が特定の値$x$以下を取る確率を直接与えます。全ての確率分布の基本となる関数です。
$$ F_X(x) = P(X \le x) = \int_{-\infty}^{x} f_X(t) dt $$$F_X(x)$は$x$について単調非減少で、$0$から$1$の値を取ります。このツールでCDFのグラフが常に右肩上がりで0から1に収束するのは、この性質によるものです。
品質管理・信頼性工学:製品の寿命や故障間隔は指数分布やワイブル分布(ガンマ分布の一種)でモデル化されます。CDFを用いて「保証期間内に故障する確率」を計算し、保証方針を決定します。
金融工学・リスク管理:株価リターンの分布は正規分布では説明できない「裾の重さ」を持つため、t分布や一般化双曲型分布が用いられます。VaR(バリュー・アット・リスク)はCDFの裾の部分からリスク額を算定します。
保険数理:発生頻度が低いが発生すると巨額の損害をもたらす事故(地震、津波)の発生回数はポアソン分布、一回あたりの損害額は対数正規分布やパレート分布でモデル化され、保険料の算出に使われます。
機械学習・ベイズ統計:未知のパラメータの事前分布として、確率は[0,1]の範囲なのでベータ分布が、正の値なのでガンマ分布が頻繁に用いられます。マルコフ連鎖モンテカルロ法(MCMC)は、ここで体験するモンテカルロサンプリングの発展形です。
まず、「PDFの高さは確率そのものではない」という点を押さえよう。例えば、平均0、標準偏差0.5の正規分布のPDFは、x=0で約0.8という高い値を持つ。これは「0が一番出やすい」という意味だが、「X=0となる確率が0.8」というわけではない。連続分布では一点の確率は0だからね。確率を知りたければ、区間を指定してPDFの下の面積を考える必要がある。ツールで「正規分布」を選び、PDF表示でx=0から0.5までの範囲を目視で確認してみて。この面積が、確率変数がその区間に入る確率に相当するんだ。
次に、分布のパラメータ設定で尺度を混同しないこと。二項分布の試行回数nと成功確率p、ポアソン分布の平均発生回数λは、現実のデータに合わせて単位をきちんと考える必要がある。例えば、「1時間当たり平均3回到着する客」をポアソン分布でモデル化する場合、分析したい時間枠が30分ならλ=1.5に設定しなければならない。ツールでλを3から1.5に変えると、分布の山の位置が左に移動するのが確認できるよ。この設定ミスは、予測結果を大きく歪めるので要注意だ。
最後に、モンテカルロサンプリングの「N」の値は大きければ良いわけではないという実務的な落とし穴。確かにN=2000よりN=10000の方が理論的なPDFに近いヒストグラムになるが、計算コストと精度のトレードオフを考えよう。特に、まれにしか起きない「テールリスク」を評価したい場合、単純にNを増やすよりも、重点サンプリングなどの高度な手法が必要になる。ツールで「t分布(自由度3)」を選び、N=1000で何度も「サンプリング」ボタンを押してみて。ヒストグラムの両端(裾)の形が実行毎に大きくばらつくはずだ。これが、稀な事象のシミュレーションが難しい理由の一端なんだ。
このシミュレーターで扱う確率分布は、信頼性工学の根幹をなす。例えば、機械部品の寿命は「ワイブル分布」でモデル化されることが多い。ツールの「指数分布」はその特別な場合だ。形状パラメータを変えることで、初期故障期・偶発故障期・摩耗故障期というバスタブ曲線を表現できる。CDFを使って「1000時間運転後の生存確率(信頼度)」を算出すれば、メンテナンス計画の立案に直接役立つ。
通信工学やトラフィック理論では、「ポアソン分布」がキープレイヤーだ。パケットの到着間隔やコールセンターへの電話着信数をモデル化する。例えば、λ(平均到着率)を変えながらCDFを見ると、「1秒間に到着するパケット数が5個を超える確率」がすぐに読み取れる。これがネットワークのバッファ設計や輻輳制御アルゴリズムの基礎データになる。
さらに材料工学や品質管理では、「正規分布」が至る所で登場する。金属の強度や製品の寸法誤差は、多くの微小な要因が重なるため正規分布に従うことが多い(中心極限定理)。ツールで標準偏差σを大きくするとグラフが横に広がるが、これはばらつきが大きい、つまり品質が不安定な状態を表している。工程能力指数CpやCpkは、この分布の広がりと規格限界の位置関係から計算されるんだ。
まず次の一歩は、「複数の確率変数を組み合わせる」ことを学ぶことだ。現実の問題は、ツールで扱っているような単一の分布では表せないことがほとんど。例えば、製品の総コストは「材料費(正規分布)+人件費(一様分布)+故障によるロス(ポアソン分布)」のように複合している。このような場合、それぞれの分布からサンプリングした値を足し合わせることで、総コストの新しい分布(これも確率分布)を生成できる。これを「確率分布の合成」または「モンテカルロシミュレーション」と呼ぶ。NovaSolverのツールで個々の分布の挙動を体感した後は、ExcelやPythonを使って、この合成に挑戦してみよう。
数学的背景を深めたいなら、全ての分布がつながっていることを理解するのが近道だ。例えば、二項分布の試行回数nを大きくすると正規分布に近づき(ド・モアブル–ラプラスの定理)、ポアソン分布は二項分布の極限として現れる。ツールで「二項分布(n=5, p=0.5)」と「正規分布(μ=2.5, σ=√1.25)」を重ねてみると、形が似ていることがわかる。nを50、100と大きくしていくともっと近づく。この「分布の極限定理」を学べば、バラバラに見えた9種類の分布が一つの体系として理解できるようになる。
最終的には、「ベイズ統計」への扉を開けてみよう。ここでは、分布のパラメータ(例えば正規分布の平均μ)自体が確率分布に従う、という考え方をする。ツールでパラメータを固定値として動かしていたのが、今度はそのパラメータがどのような「分布」を持っているかを推定する。これは、少ないデータから不確実性を定量化する強力な枠組みで、機械学習の先進的なモデルにも広く応用されている。まずは、正規分布の平均μが別の正規分布に従う場合(共役事前分布)など、基礎的な例から学びを広げていくことをお勧めする。