卡方拟合优度检验模拟器 — Pearson 检验 返回
统计学模拟器

卡方拟合优度检验模拟器 — Pearson 检验

输入 4 个类别的观测频数 O_i,在均匀分布零假设下进行 Pearson 卡方拟合优度检验。实时显示 χ² = Σ(O−E)²/E、自由度 df、5% 拒绝临界值与判定结果,配合观测/期望直方图与卡方分布曲线,让结论一目了然。

参数设置
观测频数 O_1
观测频数 O_2
观测频数 O_3
观测频数 O_4

期望频数采用均匀零假设 E_i = (O_1+O_2+O_3+O_4)/4。默认值 (30, 25, 20, 25) 对应 χ² = 2.000、df = 3、5% 临界值 = 7.815,判定为「接受 H₀」。

计算结果
χ² 统计量
自由度 df
5% 拒绝临界值
判定
观测频数 vs 期望频数

蓝色柱为观测频数 O_i,红色柱为期望频数 E_i(均匀零假设下各类相等)。蓝红差的平方即为 χ² 各项的来源。

卡方分布 f(χ²|df=3) 与拒绝域

横轴 χ² ∈ [0, 20],纵轴为概率密度。绿色为接受域,红色为拒绝域(χ² ≥ 7.815),黄色标记为当前 χ²。标记进入红色区域即拒绝 H₀。

理论与主要公式

对于 $k$ 个类别、观测频数 $O_i$、期望频数 $E_i$,Pearson 卡方统计量为

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$

拟合优度检验的自由度为 $df = k - 1$(若估计了 $r$ 个参数则为 $df = k - r - 1$)。在均匀零假设下 $E_i = N/k$,其中 $N = \sum O_i$。

当 $\chi^2 \ge \chi^2_\alpha(df)$ 时拒绝 $H_0$。$df = 3$ 时 5% 上侧临界值 $\chi^2_{0.05}(3) \approx 7.815$。默认 $(30,25,20,25)$ 给出 $\chi^2 = 25/25 + 0 + 25/25 + 0 = 2.000 < 7.815$,因此判定为「接受 H₀」。

卡方拟合优度检验模拟器是什么

🙋
如果掷一颗骰子 100 次,1~4 点的次数为 (30, 25, 20, 25),能直接说骰子「公平」吗?感觉好像有点偏。
🎓
用 Pearson 卡方拟合优度检验定量回答即可。「公平」对应期望频数 E_i = 100/4 = 25。统计量 χ² = Σ(O−E)²/E 把偏差平方除以 E 再求和:(5²+0²+5²+0²)/25 = 50/25 = 2.000。在 df = k−1 = 3 的卡方分布下,5% 拒绝临界值为 7.815;2.000 < 7.815,因此不拒绝 H₀ —— 偏差与「随机波动」相符。
🙋
那么如果数据更极端,例如 (50, 25, 0, 25) 呢?
🎓
动滑块试试。E 仍是 25,χ² = 25²/25 + 0 + 25²/25 + 0 = 50,远超 7.815,于是判定切到「拒绝 H₀」。在公平骰子假设下出现这样的偏差概率仅为 p ≈ 10⁻¹⁰,黄色标记会跳进卡方分布图右侧的红色拒绝域。
🙋
样本量 N 影响有多大?
🎓
非常大。固定比例 (0.30, 0.25, 0.20, 0.25),χ² 与 N 成正比:(6,5,4,5)(N=20)χ²≈0.4 没问题;(30,25,20,25)(N=100)χ²=2.0;同样比例放到 N=1000,χ²=20,明显拒绝。N 越大检验功效越高,但 N 太小(任一 E_i<5)卡方近似就不可靠了,应改用 Fisher 精确检验或 G 检验。
🙋
为什么 4 个类别只对应 df = 3,而不是 4?
🎓
因为 N = ΣO_i 是固定的(已知),4 个 O_i 中只要确定 3 个,第 4 个就自动决定,所以「自由变化」的只有 3 个,df = k−1 = 3。如果还从数据估计 r 个参数,那么 df = k − r − 1。本工具的均匀零假设没有估计参数,因此 df = 3,临界值 7.815 由此而来。

常见问答

经验上要求各类别 E_i ≥ 5 时卡方近似较为稳定。若有类别不满足,可以:①合并相邻类别以减少 k(df 也随之减少);②增大样本量 N;③改用 Fisher 精确检验或 G 检验(似然比统计量)。本工具固定 k = 4,只要每个 O_i ≥ 1 就能保证 E_i ≥ 1;若希望满足 E_i ≥ 5,请把所有 O_i 总和保持在 20 以上。
两者统计量 χ² = Σ(O−E)²/E 形式相同,但目的与 E 的来源不同。拟合优度检验判断「单变量类别分布是否符合假设分布」,E 直接来自理论分布(如本工具的均匀假设);独立性检验判断「二维列联表的行与列是否独立」,E_ij = (行 i 总和 × 列 j 总和) / 总频数,df = (r−1)(c−1)。例:性别×吸烟交叉表用独立性检验,骰子点数分布用拟合优度检验。
本工具的 4 张统计卡片汇总了 χ²、df、5% 临界值与判定。比较 χ² 与临界值给出的接受/拒绝结论与「p 是否 < 0.05」完全等价。内部仍计算精确 p 值:χ² = 2.000 → p ≈ 0.572,χ² = 7.815 → p = 0.05,χ² = 11.345 → p ≈ 0.01。若需要精确数值,可用 scipy.stats.chi2.sf 或 R 的 pchisq(q, df, lower.tail = FALSE) 验证。
典型场景:①验证网格质量指标(如长宽比、扭曲角)的直方图是否符合假设分布;②检验蒙特卡洛随机数发生器(Mersenne Twister、Halton 序列等)是否真的均匀分布;③监控生产批次中各缺陷模式(裂纹、空洞、尺寸偏差等)的占比是否稳定;④与 SPC 控制图结合,检测非随机的缺陷模式。Pearson 卡方计算量小,Excel 也能轻松实现,是质量工程师日常使用的基础工具。

实际应用场景

遗传学的孟德尔比检验:判定 F2 表型分布是否符合 9:3:3:1 的经典用法。比如观察豌豆杂交后代 (312, 110, 102, 36)(共 560),期望值 (315, 105, 105, 35),χ² = 9/315 + 25/105 + 9/105 + 1/35 ≈ 0.382,df=3,p≈0.94,判定「与孟德尔法则吻合良好」。遗传学论文中拟合优度检验是标准报告项目。

随机数发生器的均匀性检验(CAE 蒙特卡洛):在概率有限元和可靠性分析中,对 Mersenne Twister、Halton 等随机数采样 N 次,分到 k 个箱后用卡方检验判断各箱频数是否均匀。把本工具的 4 个箱扩展到 10 个,df=9,临界值 16.92,方法相同。Diehard、TestU01 等专业随机数检验包也是以 χ² 为基础组合多个统计量。

制造业质量控制:把当班发生的缺陷分为 {尺寸偏差, 表面缺陷, 装配错误, 其他} 4 类,检验观测频数与历史比例(例如 40:25:20:15)是否一致。χ² 落入拒绝域意味着缺陷模式发生了变化,需进一步排查(材料更换、工艺漂移、人员变化)。它与 SPC 控制图配合,是 SPC 质量管理的辅助工具之一。

市场与 A/B 测试:电商页面同时投放 4 种横幅设计,观察点击数 (45, 38, 52, 41)。零假设「四种设计点击率相同(均匀)」用卡方检验。若拒绝则说明设计间存在显著差异,再通过多重比较或转化漏斗分析具体哪种最优。

常见误解与注意点

最常见的误解是把「χ² 大就是差异大」简单化解读。χ² 几乎与样本量 N 成正比,N=10 的 χ²=8 与 N=10000 的 χ²=8 含义截然不同:后者只是「检出了一个微小偏差」,实务上意义可能很小。请同时报告效应量(如 Cramér's V 或 Cohen's w),不仅看 p 值还要看差异的「大小」。本工具样本总量在 4~400 之间,可以直观感受 N 的影响。

其次,独立性假设常被忽视。Pearson 卡方要求各观测相互独立。对同一被试做多次测量(前后对照)属于配对数据,应用 McNemar 检验或 Cochran's Q;同一家族、同一机器、同一批次的多个观测(聚类效应)也会破坏独立性,导致 χ² 显得「过分显著」。

最后,注意类别数 k 与分箱方法的任意性。把连续变量离散化后做拟合优度检验时,箱宽与箱数的选择会显著改变 χ²。Sturges 公式与 Freedman–Diaconis 规则给出数据驱动的默认值,但报告结果时务必注明分箱方式。本工具固定 k = 4,无需考虑分箱影响,但实务中这是最容易被忽视的盲点。