相互情報量 MI 推定シミュレーター

2変数 X, Y の「依存度」を線形・非線形を問わず測る相互情報量 I(X;Y) を、KSG（k近傍）・ビニング・KDE・解析解の4種類の推定器で比較できるツールです。サンプル数 N と相関係数 ρ を動かして、各推定器のバイアスと信頼区間がどう変わるかをリアルタイムに観察できます。

パラメータ設定

サンプル数 N

2変量正規分布から生成する観測点数

相関係数 ρ

X と Y のピアソン相関。±1 で完全従属

推定器

MI を推定するアルゴリズム

k近傍数 k (KSG)

KSG 推定器の近傍数。3〜5 が標準

ビン数 (Binning)

ビニング法での各軸のビン分割数

同時エントロピー基準

H(X,Y) 表示の参照スケール（nats）（参考・本計算では未使用）

計算結果

—

解析的 MI (nats)

—

解析的 MI (bits)

—

推定 MI

—

推定器バイアス

—

推定 95% CI幅

—

相対誤差 (%)

—

散布図 (X, Y) と同時分布

2変量正規分布 (μ=0, σ=1, 相関 ρ) からのサンプル散布と、各軸のマージナルヒストグラム。相関 ρ を動かすと点群の傾きと MI が変化します。

MI vs 相関係数 ρ（ガウス基準）

推定誤差 vs サンプル数 N

理論・主要公式

$$I(X;Y) = \int\!\!\int p(x,y) \log\frac{p(x,y)}{p(x)\,p(y)} \, dx\,dy, \qquad I_{\text{Gauss}} = -\tfrac{1}{2}\log(1-\rho^{2})$$

相互情報量 I(X;Y) の定義（連続変数）と、2変量ガウスの解析解。bits 表示時は log₂、nats 表示時は ln を使う。I=0 ⟺ X,Y 独立、I→∞ で完全従属。

$$I(X;Y) = H(X) + H(Y) - H(X,Y), \qquad H_{\mathcal{N}(0,1)} = \tfrac{1}{2}\log(2\pi e)$$

エントロピー H による分解（同値）。標準ガウスの微分エントロピーは ½·log(2πe) ≈ 1.4189 nats。

$$\widehat{I}_{\text{KSG}} = \psi(k) - \langle \psi(n_x+1) + \psi(n_y+1) \rangle + \psi(N)$$

Kraskov-Stögbauer-Grassberger (2004) の k-NN 推定式。ψ はディガンマ関数、n_x, n_y は周辺近傍点数。本ツールではガウス基準で簡略化したバイアス・分散モデルを用いる。

相互情報量 (MI) 推定 — 情報理論と特徴量選択

🙋

「相互情報量」って、要するに相関係数の進化版みたいなものですか？普通の ρ じゃダメな場面って、どんなときなんでしょう。

🎓

いい入り方だね。ピアソン相関 ρ は「直線的な関係」しか見られない。例えば Y = X² なら、X が小さくても大きくても Y は大きくなるけど、平均すると相関は 0 になる。でも明らかに X が決まれば Y はほぼ決まるよね？こういう「非線形だけど依存している」関係を取り逃さないのが相互情報量 I(X;Y) なんだ。定義式は p(x,y) と p(x)p(y) の KL ダイバージェンス、つまり「同時分布が独立とどれくらいズレてるか」を測っている。線形・非線形・離散・連続、何でも来い、というのが MI の強みだよ。

🙋

じゃあ、なんで世の中の解析で MI じゃなく相関係数ばかり使われてるんですか？

🎓

理由はシンプルで、MI は「推定が難しい」からなんだ。ρ は数式一発で計算できるけど、MI は同時分布 p(x,y) を有限サンプルから推定する必要がある。素朴にヒストグラムを切ると、ビン数が増えるたびにバイアスが (B²−1)/(2N) のオーダーで爆発する（Miller-Madow 補正で知られる）。それを救うために Kraskov らが 2004 年に発表したのが KSG 推定器で、これは各点の k 番目の最近傍距離を使ってバイアスを大幅に下げた。左で「推定器」を切り替えると、同じ ρ=0.6 でも推定値とバイアスが大きく変わるのが見えるはずだよ。

🙋

確かに、推定器を ksg → binning に変えるとバイアスが一気に大きくなりますね。k=5 のままサンプル数 N を 500 から 5000 にしてみたら、信頼区間がぐっと狭まりました。これって実際の研究でも N をひたすら増やせばいい話なんですか？

🎓

理屈の上ではそうなんだけど、現実は「サンプルが命」な分野ほど N を増やせない。例えば fMRI の脳活動データはセッションあたり数百ボクセル、遺伝子発現は数十サンプル、というのが普通。だから「少ない N でいかに正確に MI を推定するか」が研究テーマそのものになる。実務では (1) KSG を k=3〜5 で使う、(2) シャッフル検定で帰無分布を作って有意性を判定する、(3) ブートストラップで信頼区間を出す、の3点セットがほぼ標準。下の「推定誤差 vs サンプル数」グラフで、誤差が 1/√N で減っていくのが確認できるよ。

🙋

MI が役に立つ具体的なシーン、もう少し聞いてもいいですか？機械学習で特徴量選択に使われるって聞いたことがあるんですが。

🎓

代表格が mRMR (minimum Redundancy Maximum Relevance) 法だね。1000 個の遺伝子発現データから疾患予測に効く 20 個を選ぶ、みたいな場面で使う。やってることは単純で、「目的変数 Y との MI が大きく」かつ「既選択特徴 X_i との MI が小さい」特徴を貪欲に選ぶ。相関係数で似たことをやると線形冗長性しか落とせないけど、MI なら「Xj が Xi の二乗を含んでいる」みたいな非線形冗長性まで除去できる。あとは独立成分分析 (ICA) — 復元信号間の MI を最小化する、というのが ICA そのものの定義。それから神経科学、ゲノミクス、画像レジストレーション、通信路容量と、情報理論を背骨にする分野では必ず顔を出すよ。

🙋

最後に1つだけ。独立な変数（ρ=0）にしても、推定 MI がちょっとだけ正の値になります。これってバグですか？

🎓

バグじゃなくて、それが MI 推定の宿命なんだ。有限サンプルだと、たまたま p(x,y) が独立仮定とズレて見えるからバイアスが正に乗る。これを「finite-sample bias」と呼ぶ。だから「推定 MI = 0.01 だから依存してる」と言うのは危険で、独立な X' をシャッフルで作って同じ推定器に通し、ヌル分布の 95 パーセンタイルを超えていれば「有意」と判定する。論文でも MI を報告するときは「raw MI と shuffle-corrected MI」を併記するのが作法だよ。

よくある質問

ピアソン相関係数 ρ は2変数の「線形」な依存関係しか捉えられず、Y = X² のような非線形な関係では ρ ≈ 0 になります。相互情報量 I(X;Y) は同時分布 p(x,y) と周辺分布の積 p(x)p(y) の差を測るため、線形・非線形を問わずあらゆる依存関係を検出します。ガウス2変量の特殊ケースでは I = -0.5·log(1-ρ²) と両者が一対一対応しますが、それ以外の分布では MI のほうがはるかに一般的です。独立なら I=0、完全従属なら I→∞ です。

KSG（Kraskov-Stögbauer-Grassberger, 2004）は k近傍法ベースで、低次元・少サンプルでも低バイアスで実務での第一選択です。k=3〜5 が標準。ビニング法は高速ですが次元数が増えるとビン数が指数的に増えて推定誤差が爆発します（次元の呪い）。KDE はカーネル幅の選択に敏感で、バイアスは小さい一方で分散が大きい傾向。1〜2次元なら KSG、可視化目的なら2次元ビニング、滑らかな密度推定が欲しいなら KDE、と使い分けます。

(1) 特徴量選択の mRMR（minimum Redundancy Maximum Relevance）法では、目的変数との MI が高く、既選択特徴との MI が低い特徴を貪欲に選びます。(2) 独立成分分析（ICA）は復元信号間の MI を最小化することで実装されます。(3) 神経科学ではスパイクと刺激の MI で「ニューロンがどれだけ情報を伝えているか」を bit 単位で測定。(4) ゲノミクスの遺伝子調節ネットワーク推定、(5) 通信工学のチャネル容量、(6) 画像レジストレーションの最適化指標としても標準的に使われます。

MI 推定にはほぼ常に正のバイアスがあるためです。ビニング法では Miller-Madow 補正 (B-1)/(2N)（B はビン数、N はサンプル数）が古典的に知られており、ビン数の2乗オーダーでバイアスが乗ります。KSG はバイアスを大幅に減らしますが完全には消えず、O(1/N) 程度の残差があります。独立変数（真の MI=0）でも推定値はわずかに正、というのが情報理論推定の宿命です。シャッフル検定（X をランダムに並べ替えた MI 推定値を nullとして比較）で「有意な MI」を判定するのが定番の対処法です。

実世界での応用

特徴量選択と次元削減：テーブルデータの機械学習では、数千の候補特徴から数十個を選ぶ前処理に MI が広く使われます。代表格は Peng らの mRMR（2005）で、目的変数 Y との MI を最大化しつつ、既選択特徴間の MI を最小化することで「目的に効くが互いに重複しない特徴集合」を得ます。scikit-learn の mutual_info_classif/mutual_info_regression は KSG ベースで、これを直接使うこともできます。

神経科学・脳活動デコーディング：視覚刺激とV1野ニューロンの発火率の間の MI を bit 単位で測ると、「このニューロンが刺激について何 bit の情報を運んでいるか」が定量化できます。Shannon の文脈で言えば、ニューロンの符号化容量を測っていることになる。Strong, Bialek らの 1998 年の論文は、ハエ視覚系のH1ニューロンが秒あたり数十 bit の情報を伝えていることを MI で示しました。

画像レジストレーション：異なるモダリティ（CT と MRI など）の画像位置合わせで、ピクセル輝度間の MI を最大化する位置・回転を探索します（Maes ら 1997, Viola & Wells 1997）。輝度の絶対値が違っても「対応する組織は同じ輝度のペアになる」という統計的依存性を MI が捉えるため、相互相関より格段に頑健です。

遺伝子調節ネットワーク推定：ARACNE（Margolin ら 2006）は遺伝子発現データから遺伝子ペアの MI を計算し、Data Processing Inequality を使って間接的相関を除去することで調節ネットワークを再構築します。線形相関では捕まらない非線形な共発現パターンを発見できる点が利点です。

よくある誤解と注意点

まず最大の誤解が、「MI 値そのものを直接比較してよい」と思い込むこと。MI の単位は nats か bits ですが、推定器の種類・サンプル数・次元数で系統的バイアスが大きく変わります。例えば KSG（k=5, N=1000）で計算した X-Y の MI が 0.20 nats、ビニング（B=20）で計算した X-Z の MI が 0.30 nats のとき、「Z のほうが Y より X と強く依存している」と結論するのは危険です。バイアスの方向と大きさが異なるからです。比較は必ず同一推定器・同一サンプル数で揃え、可能ならシャッフル補正値（I_raw − I_shuffle_mean）で報告してください。

次に、「MI が大きい＝因果関係がある」という飛躍。MI は対称（I(X;Y) = I(Y;X)）で、X→Y なのか Y→X なのか、あるいは共通の交絡因子 Z があるのかは区別できません。時系列の方向性を見るには Transfer Entropy（Schreiber 2000）や Granger 因果に拡張する必要があります。「MI が高かったから X が Y の原因」と論文に書いてしまうと、レビュアーから確実に突っ込まれます。MI はあくまで「依存の度合い」であって「因果の方向」ではない、と明示してください。

最後に、「高次元データでもそのまま MI が使える」という油断。次元 d が大きい変数間の MI 推定は、KSG ですら O(N^{-1/d}) の遅い収束率となり、d=10 を超えると数千サンプルあっても信頼できる値が出ません。これは「次元の呪い」の典型例です。実務では (1) 主成分分析や Autoencoder で先に次元削減する、(2) 変数ごとのペアワイズ MI に分解する、(3) MINE（Belghazi ら 2018）のようなニューラル MI 推定器を使う、のいずれかで回避します。安易に「100次元の特徴ベクトル同士の MI」を計算してはいけません。

相互情報量 MI 推定シミュレーター

相互情報量 (MI) 推定 — 情報理論と特徴量選択

よくある質問

実世界での応用

よくある誤解と注意点

使い方ガイド

具体的な計算例

実務での注意点

相互情報量 MI 推定シミュレーター

相互情報量 (MI) 推定 — 情報理論と特徴量選択

よくある質問

実世界での応用

よくある誤解と注意点

使い方ガイド

具体的な計算例

実務での注意点

関連ツール