🙋 コインを20回投げて表が出る回数って、どう計算するの?
🙋
コインを20回投げると表と裏しかないし、毎回独立してますよね。こういうとき、表がちょうど k 回出る確率ってどう計算するんですか?
🎓
それが二項分布だ。P(X=k) = C(n,k) × p^k × (1-p)^(n-k)。例えばコイン(p=0.5)を n=20回投げてちょうど10回表が出る確率は C(20,10)×0.5^20 ≈ 17.6%。このシミュレーターで n=20、p=0.5 に設定して k=10 を確認してみると一発で答えが出るよ。
🙋
「近似比較」タブで「正規近似」と「ポアソン近似」が出てきますが、これらはいつ使うんですか?
🎓
正規近似は n が大きく p が 0.5 に近いとき有効で、目安は np≥5 かつ n(1-p)≥5。n=100、p=0.3 などは二項分布の棒グラフがほぼ正規分布の釣り鐘型になる。ポアソン近似は逆に n が大きく p が非常に小さいとき——工場の不良品率(p=0.01 とか)のような希少事象だ。「不良品プリセット」で試してみると、ポアソン近似がほぼ一致しているのがわかる。
🙋
「P(k ≤ 6) = ?」みたいに、範囲で確率を求めたいとき、累積分布 CDF を使うんですよね?
🎓
そう。CDF F(k) = P(X ≤ k) は k 以下のすべての確率を足したもの。このツールの「クエリ」欄で演算子を「≤」にして k=6 にすると、P(X≤6) が一発で出る。P(3≤X≤8) のような区間確率は F(8) − F(2) で計算できる。品質管理で「不良品が5個以下になる確率は?」というような実務の問いに直結するよ。
🙋
「歪度」という指標が表示されていますが、p=0.5 のときと p=0.1 のときで全然違いますね。
🎓
歪度 γ₁ = (1-2p)/√(np(1-p)) で、p=0.5 なら γ₁=0(完全対称)。p が 0 に近づくと正の歪み(右裾が長い形)、1 に近づくと負の歪み(左裾が長い形)になる。これが「希少事象ほど分布が歪む」直感に対応している。n が大きくなると分母の √n が効いてくるから歪度は小さくなる——これが中心極限定理と繋がっているんだ。
🙋
選挙の出口調査で「誤差 ±3%」とかよく言いますが、二項分布と関係があるんですか?
🎓
直結してるよ。n 人にyesかnoを聞いたとき、「yes」の人数は二項分布 B(n, p) に従う。標準誤差は σ/√n = √(p(1-p)/n)。95%信頼区間は p̂ ± 1.96√(p̂(1-p̂)/n)。「n=1000, p̂=0.5 のとき」を計算すると ±3.1% になって、よくある「±3%誤差」の出口調査がn=1000程度の調査だとわかる。このシミュレーターで n=1000、p=0.5 にすると σ がかなり小さくなることが確認できる。
よくある質問
二項分布が成立するための条件は?
①各試行が独立していること、②各試行で「成功」か「失敗」の2結果しかないこと、③各試行での成功確率 p が一定であること(bernoulli試行)、④試行回数 n が固定されていること、の4条件が必要です。カードを引いて戻さない場合(非復元抽出)は独立でないため、二項分布ではなく超幾何分布を使います。
ポアソン近似はいつ使えますか?
n が大きく p が小さい(λ = np が中程度)ときに B(n,p) ≈ Poisson(λ) の近似が使えます。実用的な目安は n≥20 かつ p≤0.05(または np≤10)のときです。例:工場の不良品率 p=0.01、検査数 n=100 のとき λ=1 のポアソン近似が使えます。n が小さい場合や p が大きい場合は二項分布をそのまま使ってください。
正規近似の連続補正とは何ですか?
二項分布(離散)を正規分布(連続)で近似するとき、P(X=k) ≈ P(k-0.5 ≤ Y ≤ k+0.5) として±0.5の幅を持たせる補正です。連続補正なしより精度が改善します。例:P(X≤5) の近似では、連続補正ありで P(Y≤5.5) を計算します。サンプルサイズが小さいほど連続補正の効果が大きく出ます。
二項検定はどう使うのですか?
母比率 p₀ の帰無仮説 H₀: p = p₀ を検定するとき、観測した成功回数 k から B(n, p₀) での P 値を計算します。例:コインが公正(p=0.5)かを確認するとき、n=100回で k=60回表なら CDF から p値 = P(X≥60|p=0.5) を計算し、0.05 を下回れば p=0.5 を棄却します。このシミュレーターの累積分布タブで P(X≥k) を確認できます。
二項分布と超幾何分布の違いは?
二項分布は復元抽出(試行が独立、p 一定)、超幾何分布は非復元抽出(各試行で成功確率が変わる)です。例:N枚のカードから K枚の当たりカードがあるとき、n枚引いて何枚当たるかは超幾何分布 HG(N,K,n) に従います。n が N に比べて十分小さい(n/N < 0.05)場合は二項分布で近似できます。
二項分布シミュレーターとは
二項分布シミュレーターの物理モデルでは、各試行が独立であり、成功確率 \( p \) が一定であるベルヌーイ試行の繰り返しを前提とします。全試行回数を \( n \) とし、成功回数を \( k \) とすると、その確率は二項分布 \( B(n, p) \) に従い、確率質量関数は \( P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \) で与えられます。この分布の平均は \( \mu = np \)、分散は \( \sigma^2 = np(1-p) \) となります。本シミュレーターでは、この理論値を基に確率分布と累積分布をリアルタイムで計算し、特定区間 \( a \leq k \leq b \) の確率を \( \sum_{k=a}^{b} \binom{n}{k} p^k (1-p)^{n-k} \) として求めます。また、\( n \) が大きく \( p \) が小さい場合にはポアソン近似 \( P(X = k) \approx \frac{e^{-np} (np)^k}{k!} \) を、\( np \) と \( n(1-p) \) が十分大きい場合には正規近似 \( N(np, np(1-p)) \) を適用し、理論分布との差異を可視化することで近似の精度を直感的に評価できます。
実世界での応用
産業での実際の使用例(自動車業界) トヨタ自動車の生産ラインでは、溶接ロボットの不良率管理に二項分布を活用。例えば、1,000回のスポット溶接における欠陥発生確率p=0.02を設定し、部品ロットごとの不良個数分布をシミュレーション。これにより、品質管理基準(例:許容不良数30個以内)を満たす確率をリアルタイム算出し、工程改善の優先度判断に利用しています。
研究・教育での活用(医学研究) 製薬企業の臨床試験では、新薬の有効性評価に二項分布シミュレーターが使用されます。例えば、治験参加者200人のうち、症状改善者が120人以上となる確率を計算。p値をポアソン近似や正規近似と比較しながら、統計的有意性を視覚的に確認。医学生や研究者が確率分布の直感的理解を深める教育ツールとしても普及しています。
CAE解析との連携や実務での位置付け 半導体製造装置の設計では、CAEによる熱応力解析と二項分布シミュレーターを連携。チップ1万個中の不良発生確率p=0.001を設定し、製造歩留まり99.5%を達成するための設計条件を確率的に検証。CAEで物理現象を解析し、二項分布で量産時のばらつきを定量化することで、設計から量産までのリスク評価を統合的に実施します。
よくある誤解と注意点
「試行回数nが大きければ必ず正規近似が使える」と思いがちですが、実際は成功確率pが極端に0や1に近い場合(例:p=0.01)には正規近似の精度が著しく低下します。このような場合はポアソン近似の方が適切であり、n×pが5未満のときは特に注意が必要です。
「累積分布関数の値は確率密度関数の値をそのまま足したもの」と思いがちですが、実際には離散分布である二項分布では確率質量関数の値を正確に累積する必要があり、特に「以上」「以下」の区間計算では境界値を含むか含まないかで結果が変わることに注意が必要です。
「試行回数nを増やせば成功確率pはそのまま維持される」と思いがちですが、実際にはnを変えてもpは固定値として扱うのが二項分布の前提です。実務で「nを増やしたらpも変化する」ようなデータ(例:不良率が試行回数に依存する工程)には二項分布をそのまま適用できない点に注意が必要です。