互信息量 MI 估计模拟器

两变量 X, Y 的「依赖度」可以通过互信息量 I(X;Y) 来衡量，它不受线性性限制。本工具使用 KSG（k近邻）、宁滨、KDE、解析解四种估计器进行比较。您可以调节样本数 N 和相关系数 ρ，实时观察各估计器的偏差和置信区间变化情况。

参数设置

样本数 N

从二变量正态分布生成的观测点数

相关系数 ρ

X 和 Y 的皮尔逊相关。±1 时完全依赖

估计器

用于估计 MI 的算法

k近邻数 k (KSG)

KSG 估计器的近邻数。3～5 是标准值

宁数 (Binning)

宁滨法在各轴上的分割宁数

联合熵基准

H(X,Y) 显示的参考刻度（nats）

计算结果

—

解析 MI (nats)

—

解析 MI (bits)

—

估计 MI

—

估计器偏差

—

估计 95% CI宽

—

相对误差 (%)

—

散布图 (X, Y) 和联合分布

从二变量正态分布（μ=0, σ=1，相关 ρ）生成的样本散布及各轴边际直方图。改变相关系数 ρ 时点群的倾斜度和 MI 都会变化。

MI vs 相关系数 ρ（高斯基准）

估计误差 vs 样本数 N

理论·主要公式

$$I(X;Y) = \int\!\!\int p(x,y) \log\frac{p(x,y)}{p(x)\,p(y)} \, dx\,dy, \qquad I_{\text{Gauss}} = -\tfrac{1}{2}\log(1-\rho^{2})$$

互信息量 I(X;Y) 的定义（连续变量）及二变量高斯的解析解。bits 时用 log₂，nats 时用 ln。I=0 ⟺ X,Y 独立，I→∞ 为完全依赖。

$$I(X;Y) = H(X) + H(Y) - H(X,Y), \qquad H_{\mathcal{N}(0,1)} = \tfrac{1}{2}\log(2\pi e)$$

通过熵 H 的分解（等价形式）。标准高斯的微分熵为 ½·log(2πe) ≈ 1.4189 nats。

$$\widehat{I}_{\text{KSG}} = \psi(k) - \langle \psi(n_x+1) + \psi(n_y+1) \rangle + \psi(N)$$

Kraskov-Stögbauer-Grassberger (2004) 的 k-NN 估计式。ψ 是二伽玛函数，n_x, n_y 是边际近邻点数。本工具采用基于高斯的简化偏差和方差模型。

互信息量 (MI) 估计 — 信息论与特征选择

🙋

「互信息量」就是相关系数的升级版吗？普通的 ρ 在什么场景下不够用呢？

🎓

很好的入门问题。皮尔逊相关 ρ 只能看到「直线关系」。比如 Y = X²，X 无论小还是大 Y 都很大，但平均来看相关系数为 0。但显然 X 确定的话 Y 就基本确定了，对吧？互信息量 I(X;Y) 就是通过 p(x,y) 和 p(x)p(y) 的 KL 散度来测「联合分布与独立假设的偏差度」，能捕捉所有类型的依赖关系。线性、非线性、离散、连续都没问题，这就是 MI 的威力。

🙋

那为什么世界上的分析还是到处在用相关系数而不是 MI 呢？

🎓

原因很简单，MI 「难估计」。ρ 用一个公式直接就算了，但 MI 需要从有限样本估计联合分布 p(x,y)。最朴素的方法是切割直方图，但随着宁数增加，偏差以 (B²−1)/(2N) 阶爆炸（Miller-Madow 补正大家都知道）。救星是 Kraskov 他们在 2004 年提出的 KSG 估计器，用各点的第 k 个最近邻距离来大幅降低偏差。左边换「估计器」你就能看到，同样的 ρ=0.6，估计值和偏差会差很大。

🙋

确实，切成 ksg → binning 时偏差一下子变大了。我把 k 保持在 5，把样本数 N 从 500 改到 5000，信心区间确实缩小了不少。这说明实际研究中只要不停加样本就行？

🎓

理论上是这样，但现实中「样本珍贵」的领域根本加不了。比如 fMRI 脑活动数据一个 session 就几百个体素，基因表达通常几十个样本，这就是常见的。所以「少样本下精确估计 MI」本身就是研究课题。实务里基本都是这三件套：（1）用 KSG，k=3～5；（2）做打乱检验生成零假设分布来判显著性；（3）用自举法算置信区间。下面的「估计误差 vs 样本数」图能看出误差以 1/√N 的速度下降。

🙋

能不能再讲讲 MI 的实际应用场景？我听说机器学习特征选择时会用到？

🎓

代表作是 mRMR（最小冗余最大相关性）法。你有 1000 个基因表达特征要从中选出 20 个来预测疾病，就用 mRMR。很简单：选择「与目标变量 Y 的 MI 大」且「与已选特征 X_i 的 MI 小」的特征，贪心地迭代。用相关系数做这事只能删除线性冗余，但 MI 连「X_j 是 X_i 平方」这种非线性冗余都能除掉。还有独立成分分析（ICA）—— 就是最小化恢复信号间的 MI。再加上神经科学、基因组学、图像配准、通信论，凡是以信息论为脊梁的领域都用 MI。

🙋

最后一个问题。独立变量（ρ=0）的时候，估计的 MI 也会是正值，这是 bug 吗？

🎓

不是 bug，这就是 MI 估计的宿命。有限样本下，p(x,y) 偶然看起来不完全独立，所以正偏差就加上去了。叫「有限样本偏差」。因此「估计 MI = 0.01，所以有依赖」这种说法很危险，正确做法是生成独立的 X'（打乱 X），跑同一个估计器，得到零假设分布，看估计值有没有超过 95 百分位。论文里报告 MI 时也应该「原始 MI 和打乱修正后的 MI」并列，这是规范。

常见问题

皮尔逊相关系数 ρ 只能捕捉两个变量的「线性」依赖关系，对于 Y = X² 这样的非线性关系，ρ ≈ 0。互信息量 I(X;Y) 通过测量联合分布 p(x,y) 与边际分布乘积 p(x)p(y) 的差异，能够检测线性和非线性的各种依赖关系。对于高斯二变量的特殊情况，I = -0.5·log(1-ρ²)，两者一一对应，但对于其他分布，MI 更加通用。独立时 I=0，完全依赖时 I→∞。

KSG（Kraskov-Stögbauer-Grassberger，2004）基于 k 近邻法，在低维和小样本下具有低偏差，是实务中的首选。k=3～5 是标准值。宁滨法速度快但随维度增加而误差爆炸（维度诅咒）。KDE 对核宽度敏感，偏差小但方差大。对于 1～2 维用 KSG，可视化目的用二维宁滨，需要光滑密度估计时用 KDE。

（1）特征选择的 mRMR（最小冗余最大相关性）法通过贪心选择与目标变量 MI 高、与已选特征 MI 低的特征。（2）独立成分分析（ICA）通过最小化恢复信号间的 MI 实现。（3）神经科学中用 MI 的 bit 单位测量「神经元传递了多少信息」。（4）基因组学的基因调控网络估计、（5）通信工程的信道容量、（6）图像配准的优化指标都广泛使用 MI。

MI 估计几乎总是存在正偏差。宁滨法的 Miller-Madow 补正为 (B-1)/(2N)（B 是宁数，N 是样本数），偏差以宁数平方阶增长。KSG 大幅降低偏差但不会完全消除，残差约为 O(1/N)。独立变量（真实 MI=0）的估计值仍为正，这是信息论估计的宿命。使用打乱检验（将 X 随机排列后的 MI 估计作为零假设）来判断「显著 MI」是标准做法。

实际应用

特征选择与降维：表格数据的机器学习中，从数千候选特征中选数十个的预处理广泛用 MI。代表作是 Peng 等人的 mRMR（2005），通过最大化与目标变量 Y 的 MI、最小化已选特征间的 MI，得到「对目标有效但互不重复的特征集」。scikit-learn 的 mutual_info_classif/mutual_info_regression 就是 KSG 实现，可直接使用。

神经科学·脑活动解码：视觉刺激与 V1 皮层神经元放电率间的 MI（bit 单位），量化「这个神经元传输多少关于刺激的信息」。从 Shannon 角度说，测的是神经元编码容量。Strong、Bialek 等人 1998 年的论文用 MI 证明果蝇 H1 神经元每秒传输数十 bit。

图像配准：异模态图像（CT 与 MRI）配准时，通过最大化像素亮度间的 MI 来搜索位置和旋转（Maes 等 1997，Viola & Wells 1997）。即使绝对亮度值不同，「对应组织产生同样亮度对」这一统计依赖也被 MI 捕捉，比互相关鲁棒得多。

基因调控网络估计：ARACNE（Margolin 等 2006）从基因表达数据计算基因对的 MI，用数据处理不等式除去间接相关，重构调控网络。线性相关捕不到的非线性共表达模式都能发现，这是优势。

常见误解与注意事项

最大的误解是「MI 值可以直接比较」。MI 的单位是 nats 或 bits，但估计器种类、样本数、维度会引入系统性偏差。比如用 KSG（k=5，N=1000）算出 X-Y 的 MI 为 0.20 nats，用宁滨（B=20）算出 X-Z 的 MI 为 0.30 nats，说「Z 比 Y 与 X 更强依赖」就危险了，因为两个偏差的方向和大小都不同。比较时必须用同一估计器和同一样本数，最好报告打乱修正值（I_raw − I_shuffle_mean）。

其次是「MI 大 ⟹ 有因果关系」的飞跃。MI 是对称的（I(X;Y) = I(Y;X)），分不出 X→Y 还是 Y→X，也分不出有没有混杂因子 Z。看时间方向性要用 Transfer Entropy（Schreiber 2000）或扩展到 Granger 因果。「MI 高说明 X 是 Y 的原因」这样的论文表述必招 reviewer 批评。MI 只是「依赖度」，不是「因果方向」。

最后要警惕「高维数据也能直接用 MI」的误操作。高维变量（d > 5）的 MI 估计，即便用 KSG 也会陷入 O(N^{-1/d}) 的慢收敛，d=10 时几千样本也靠不住。这是「维度诅咒」的典型。实务里要么（1）先用 PCA 或 Autoencoder 降维；（2）分解成成对比较；（3）用 MINE（Belghazi 等 2018）这样的神经 MI 估计器。随便计算「100 维特征向量间的 MI」要出事。

互信息量 MI 估计模拟器

互信息量 (MI) 估计 — 信息论与特征选择

常见问题

实际应用

常见误解与注意事项

使用指南

具体计算示例

实务注意事项