卡方拟合优度检定用来判定什么？

卡方拟合优度检定（Pearson's chi-square goodness-of-fit test）用来判定观测的分类频数 O_i 是否与假设分布（如均匀分布、Mendelian 9:3:3:1、二项分布等）的期望频数 E_i 「相符」。统计量为 χ² = Σ_i (O_i − E_i)² / E_i，自由度 df = k − r − 1（k 为分类数，r 为估计的参数个数），简单适度度检定时 df = k − 1。当 χ² 超过拒绝临界值 χ²_α(df) 时，判定「不符合假设分布」。本工具针对 k=4、均匀假设（E_i = N/4）的情况。

为什么自由度 df = 3 时的 5% 拒绝临界值是 7.815？

卡方分布的概率密度为 f(χ²|df) = χ^(df/2−1) e^(−χ²/2) / (2^(df/2) Γ(df/2))。当 df=3 时，使右尾积分等于 0.05 的 χ² 值为 7.8147（标准统计表中 χ²_0.05(3) ≈ 7.815）。本工具通过卡方分布的数值积分（Wilson-Hilferty 近似与 Newton 迭代）求得此值，并将当前 χ² 统计量与之比较，以红色拒绝域、绿色接受域显示。当 df=1 时临界值为 3.841，df=2 时为 5.991，df=4 时为 9.488，df 越大临界值越大。

改变观测频数总和会如何影响结果？

本工具中，当总数 N 变化时，期望频数 E_i = N/4 也按相同比例变化。例如若全部设为 30，则 E_i=30，所有偏差为零 → χ²=0，完全拟合。若设为极端分布如 O = (50, 25, 0, 25)，则 χ² = (25)²/25 + 0 + (25)²/25 + 0 = 50，远超 7.815，判定为拒绝。样本容量 N 越大，越容易检出微小的相对偏差，检验效能（power）增加。反之 N 较小时难以区分「偶然波动」与真实偏离。经验法则建议所有 E_i ≥ 5。

拟合优度检定有哪些实际应用案例？

典型应用包括：①遗传学中Mendelian比（黄圆:绿圆:黄皱:绿皱 = 9:3:3:1）的偏离检定，②骰子或随机数生成器是否均匀分布的检定，③呼叫中心按曜日分类的来电数是否均等的检定，④质量管理中缺陷类型分布是否稳定的监测，⑤市场营销中品牌选择偏好是否均衡的判定。在CAE/工程领域中，网格质量指标分布、制造批次不良模式比率、模拟随机数的均匀性验证等都采用本检定。通过在本模拟器中改变 O_i 观察 χ² 与拒绝临界值的关系，可直观理解检定的敏感度。

卡方拟合优度检定模拟器 — Pearson 检定

参数设置

观测频数 O_1

观测频数 O_2

观测频数 O_3

观测频数 O_4

期望频数采用均匀假设 E_i = (O_1+O_2+O_3+O_4)/4。默认值 (30, 25, 20, 25) 时 χ² = 2.000、df = 3、5% 拒绝临界值 = 7.815、判定为「拟合」。

计算结果

—

χ² 统计量

—

自由度 df

—

5% 拒绝临界值

—

判定

观测频数 vs 期望频数

蓝色柱=观测频数 O_i，红色柱=期望频数 E_i（均匀假设下各分类相等）。蓝红柱差的平方对 χ² 各项有贡献。

卡方分布 f(χ²|df=3) 与拒绝域

横轴 χ² ∈ [0, 20]，纵轴概率密度。绿色=接受域，红色=拒绝域（χ² ≥ 7.815），黄色标记=当前 χ² 值。标记进入红色区域时 H₀ 被拒绝。

理论与主要公式

对于分类数 $k$、观测频数 $O_i$、期望频数 $E_i$，Pearson 卡方统计量为

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$

拟合优度检定的自由度为 $df = k - 1$（若估计了参数，则 $df = k - r - 1$）。在均匀假设下，$E_i = N/k$（$N = \sum O_i$）。

当 $\chi^2$ 超过卡方分布的上侧 $\alpha$ 分位数 $\chi^2_\alpha(df)$ 时，拒绝零假设 $H_0$。对于 df=3，$\chi^2_{0.05}(3)\approx 7.815$；默认值 $(30,25,20,25)$ 时 $\chi^2 = 25/25 + 0 + 25/25 + 0 = 2.000 \lt 7.815$，判定为「拟合」。

卡方拟合优度检定概述

🙋

掷骰子100次，前4个数字(1, 2, 3, 4)的出现次数分别为(30, 25, 20, 25)。这个结果能说明骰子是「公平的」吗？感觉有些偏离。

🎓

这个问题正是卡方拟合优度检定要解决的。如果骰子「公平」，期望每个数字出现25次（100/4=25）。观测的偏差平方和除以期望值，就是 χ² 统计量：χ² = (5²+0²+5²+0²)/25 = 50/25 = 2.000。自由度为 df = 4-1 = 3，5% 的拒绝临界值是 7.815。由于 2.000 < 7.815，我们无法拒绝「公平」的假设，说明这个偏离可以用随机波动来解释。

🙋

如果数据更极端，比如(50, 25, 0, 25)，结果会怎样？

🎓

使用本模拟器调整滑块试试。期望值仍然是25，χ² = 25²/25 + 0 + 25²/25 + 0 = 50，远远超过7.815。这表示「如果骰子真的公平，出现这样的数据的概率几乎为零」，所以我们拒绝原假设。判定会切换到「拒绝」，并且黄色标记会跳入图表的红色区域。

🙋

样本量会不会影响结果？比如相同的比例，但总数不同？

🎓

这是非常重要的点。χ² 基本上与样本量 N 成正比。如果你保持比例为(0.30, 0.25, 0.20, 0.25)但改变 N，例如 N=20 时 O=(6, 5, 4, 5)，χ²=0.4，没有显著性；N=100 时 O=(30, 25, 20, 25)，χ²=2.0；N=1000 时 O=(300, 250, 200, 250)，χ²=20，拒绝。虽然比例完全相同，但更大的样本能检测到更小的偏离。这就是统计检验的「效能」问题。记住，E_i < 5 时检定可靠性下降，需要考虑 Fisher 精确检定或其他替代方法。

🙋

「自由度 df = 3」是怎么来的？有4个分类，为什么不是df = 4？

🎓

因为总数 N = ΣO_i 是固定的。4个观测频数中，前3个可以自由变化，第4个就自动确定了（由总数约束）。所以只有3个自由度。一般地，df = k - 1（k为分类数）。如果还要从数据估计参数（如方差），自由度还要进一步减少：df = k - r - 1（r为估计参数数）。对于均匀假设（无需估计参数），就是简单的 k - 1。

常见问题解答

经验法则推荐所有 E_i ≥ 5，以确保卡方近似的准确性。当部分类别 E_i < 5 时，有三种选择：①合并相邻的小频数类别，减少分类数 k（自由度也随之减少），②增加样本量 N（使所有 E_i 都变大），③改用Fisher精确检定、G检定（似然比检定）或Monte Carlo模拟。本工具固定 k=4，只要确保总观测数 ≥ 20，通常就能满足条件。

两者都用卡方统计量 χ² = Σ(O−E)²/E，但目的和期望值计算方式不同。拟合优度检定（Goodness-of-Fit）检验「单个分类变量的分布是否符合某个理论分布」，期望频数直接从理论给出（如均匀分布、Poisson、正态等）；独立性检定（Test of Independence）检验「两个分类变量之间是否独立」，用行列总和计算期望 E_ij = (行和 × 列和) / 总和，自由度为 df = (行数-1)×(列数-1)。例：骰子出现各数字的频率分布用拟合优度检定，而「性别与吸烟状态」的关联用独立性检定。

本工具的结果摘要聚焦于χ²、df、5%拒绝临界值和判定这四项关键信息。实际上p值已在内部计算，判定「是否拒绝」等价于「p < 0.05吗」。例如χ² = 2.000时 p ≈ 0.572，χ² = 7.815时 p = 0.05，χ² = 11.345时 p ≈ 0.01。如需看具体p值数字，可用外部统计库（如Python的scipy.stats.chi2.sf、R的pchisq）获得相同结果。

典型工程应用包括：①有限元网格生成的单元质量指标（纵横比、倾斜度）分布验证，②随机数生成器（用于Monte Carlo仿真）的一致性检验，③制造工艺的不良模式（裂纹、气孔、尺寸偏差等）频率稳定性监测，④质量控制中特定缺陷类型的统计分布分析。Pearson χ² 计算简便、易于实现（甚至可在Excel中编程），是现场工程师的常用工具。通过本模拟器改变数据观察χ²和临界值的关系，能直观理解检定的灵敏度。

实际应用案例

遗传学与Mendelian比：古典遗传学中，F2代的表型分布应符合9:3:3:1的理论比。例如豌豆杂交实验观测到(312, 110, 102, 36)（总计560），期望值为(315, 105, 105, 35)。χ² = (9/315 + 25/105 + 9/105 + 1/35) ≈ 0.471，df=3，p ≈ 0.93，「完全符合Mendelian规律」。这是19世纪以来遗传学的标准判别方法。

随机数均匀性验证（Monte Carlo仿真）：有限元的随机分析需要可靠的伪随机数生成器。对N=10000个样本在10个等宽区间均匀采样，理想情况下每个区间约1000个。如果某个区间只有800个而另一个有1200个，χ² 可量化这种偏离。Mersenne Twister等算法的标准测试套件（Diehard, TestU01）都基于多项卡方检定。

制造质量管理：某电子产品一个班次的不良品分为{尺寸超差、焊接缺陷、元件错装、外观瑕疵}四类。若历史数据比例为40:25:20:15，今天观测到(35, 28, 25, 12)（总100件）。期望为(40, 25, 20, 15)，χ² = (25/40 + 9/25 + 25/20 + 9/15) ≈ 2.97，df=3，不显著。说明今天的不良分布未超出随机波动范围，无需调查工艺变化。

市场调查与A/B测试：网站推荐系统对4个商品款式进行A/B/C/D测试，观测点击数(45, 38, 52, 41)。零假设为「均等吸引力」(E_i=44)，χ² = (1/44 + 36/44 + 64/44 + 9/44) ≈ 2.50，df=3，p ≈ 0.48。判断：四种款式的人气无显著差异，可继续并行运营或样本量不足，需扩大测试。

常见误区与注意事项

误区1：χ²值越大越"不好"。χ²的大小本质上反映「观测与期望的偏离程度相对于期望的比值」。但由于χ²与样本量 N 近似成正比，N=10时χ²=8和N=10000时χ²=8意义完全不同——后者可能只是微小的相对偏离被大样本放大了。应配合效应量（Cramér's V或Cohen's w）和p值理解，而不单看χ²的数值。

误区2：忽视独立性假设。Pearson χ² 要求各观测相互独立。如果数据来自同一受试者的重复测量（配对样本），应用McNemar检定或Cochran's Q检定；如果样本存在聚类结构（如同一家族、同一机器、同一批次），独立性被违反，χ²倾向过度显著。

误区3：对分组方案不敏感。当将连续变量离散化为分类后进行拟合优度检定时，分组数k和各组宽度的选择会显著影响结果。Sturges、Freedman-Diaconis等规则可自动选择，但报告结果时必须明确说明分组方案。

误区4：p值和显著性混淆。p < 0.05表示「在零假设下，观测到当前或更极端数据的概率 < 5%」，不等于「零假设错误的概率 > 95%」。卡方检定是频率学派方法，无法直接给出假设的概率，只能说「在给定显著水平下，拒绝或不拒绝」。

卡方拟合优度检定模拟器 — Pearson 检定

卡方拟合优度检定概述

常见问题解答

实际应用案例

常见误区与注意事项

使用指南

具体计算示例

实务注意事项

卡方拟合优度检定 模拟器 — Pearson 检定

卡方拟合优度检定概述

常见问题解答

实际应用案例

常见误区与注意事项

相关工具

使用指南

具体计算示例

实务注意事项

卡方拟合优度检定模拟器 — Pearson 检定