卡方拟合优度检定 模拟器 — Pearson 检定 返回
统计学模拟器

卡方拟合优度检定 模拟器 — Pearson 检定

输入4个分类的观测频数 O_i,在均匀分布假设下,使用Pearson卡方拟合优度检定 χ² = Σ(O−E)²/E、自由度 df、5% 拒绝临界值、p 值,实时计算并判定。通过观测 vs 期望直方图与卡方分布曲线直观可视化结果。

参数设置
观测频数 O_1
观测频数 O_2
观测频数 O_3
观测频数 O_4

期望频数采用均匀假设 E_i = (O_1+O_2+O_3+O_4)/4。默认值 (30, 25, 20, 25) 时 χ² = 2.000、df = 3、5% 拒绝临界值 = 7.815、判定为「拟合」。

计算结果
χ² 统计量
自由度 df
5% 拒绝临界值
判定
观测频数 vs 期望频数

蓝色柱=观测频数 O_i,红色柱=期望频数 E_i(均匀假设下各分类相等)。蓝红柱差的平方对 χ² 各项有贡献。

卡方分布 f(χ²|df=3) 与拒绝域

横轴 χ² ∈ [0, 20],纵轴 概率密度。绿色=接受域,红色=拒绝域(χ² ≥ 7.815),黄色标记=当前 χ² 值。标记进入红色区域时 H₀ 被拒绝。

理论与主要公式

对于分类数 $k$、观测频数 $O_i$、期望频数 $E_i$,Pearson 卡方统计量为

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$

拟合优度检定的自由度为 $df = k - 1$(若估计了参数,则 $df = k - r - 1$)。在均匀假设下,$E_i = N/k$($N = \sum O_i$)。

当 $\chi^2$ 超过卡方分布的上侧 $\alpha$ 分位数 $\chi^2_\alpha(df)$ 时,拒绝零假设 $H_0$。对于 df=3,$\chi^2_{0.05}(3)\approx 7.815$;默认值 $(30,25,20,25)$ 时 $\chi^2 = 25/25 + 0 + 25/25 + 0 = 2.000 \lt 7.815$,判定为「拟合」。

卡方拟合优度检定概述

🙋
掷骰子100次,前4个数字(1, 2, 3, 4)的出现次数分别为(30, 25, 20, 25)。这个结果能说明骰子是「公平的」吗?感觉有些偏离。
🎓
这个问题正是卡方拟合优度检定要解决的。如果骰子「公平」,期望每个数字出现25次(100/4=25)。观测的偏差平方和除以期望值,就是 χ² 统计量:χ² = (5²+0²+5²+0²)/25 = 50/25 = 2.000。自由度为 df = 4-1 = 3,5% 的拒绝临界值是 7.815。由于 2.000 < 7.815,我们无法拒绝「公平」的假设,说明这个偏离可以用随机波动来解释。
🙋
如果数据更极端,比如(50, 25, 0, 25),结果会怎样?
🎓
使用本模拟器调整滑块试试。期望值仍然是25,χ² = 25²/25 + 0 + 25²/25 + 0 = 50,远远超过7.815。这表示「如果骰子真的公平,出现这样的数据的概率几乎为零」,所以我们拒绝原假设。判定会切换到「拒绝」,并且黄色标记会跳入图表的红色区域。
🙋
样本量会不会影响结果?比如相同的比例,但总数不同?
🎓
这是非常重要的点。χ² 基本上与样本量 N 成正比。如果你保持比例为(0.30, 0.25, 0.20, 0.25)但改变 N,例如 N=20 时 O=(6, 5, 4, 5),χ²=0.4,没有显著性;N=100 时 O=(30, 25, 20, 25),χ²=2.0;N=1000 时 O=(300, 250, 200, 250),χ²=20,拒绝。虽然比例完全相同,但更大的样本能检测到更小的偏离。这就是统计检验的「效能」问题。记住,E_i < 5 时检定可靠性下降,需要考虑 Fisher 精确检定或其他替代方法。
🙋
「自由度 df = 3」是怎么来的?有4个分类,为什么不是df = 4?
🎓
因为总数 N = ΣO_i 是固定的。4个观测频数中,前3个可以自由变化,第4个就自动确定了(由总数约束)。所以只有3个自由度。一般地,df = k - 1(k为分类数)。如果还要从数据估计参数(如方差),自由度还要进一步减少:df = k - r - 1(r为估计参数数)。对于均匀假设(无需估计参数),就是简单的 k - 1。

常见问题解答

经验法则推荐所有 E_i ≥ 5,以确保卡方近似的准确性。当部分类别 E_i < 5 时,有三种选择:①合并相邻的小频数类别,减少分类数 k(自由度也随之减少),②增加样本量 N(使所有 E_i 都变大),③改用Fisher精确检定、G检定(似然比检定)或Monte Carlo模拟。本工具固定 k=4,只要确保总观测数 ≥ 20,通常就能满足条件。
两者都用卡方统计量 χ² = Σ(O−E)²/E,但目的和期望值计算方式不同。拟合优度检定(Goodness-of-Fit)检验「单个分类变量的分布是否符合某个理论分布」,期望频数直接从理论给出(如均匀分布、Poisson、正态等);独立性检定(Test of Independence)检验「两个分类变量之间是否独立」,用行列总和计算期望 E_ij = (行和 × 列和) / 总和,自由度为 df = (行数-1)×(列数-1)。例:骰子出现各数字的频率分布用拟合优度检定,而「性别与吸烟状态」的关联用独立性检定。
本工具的结果摘要聚焦于χ²、df、5%拒绝临界值和判定这四项关键信息。实际上p值已在内部计算,判定「是否拒绝」等价于「p < 0.05吗」。例如χ² = 2.000时 p ≈ 0.572,χ² = 7.815时 p = 0.05,χ² = 11.345时 p ≈ 0.01。如需看具体p值数字,可用外部统计库(如Python的scipy.stats.chi2.sf、R的pchisq)获得相同结果。
典型工程应用包括:①有限元网格生成的单元质量指标(纵横比、倾斜度)分布验证,②随机数生成器(用于Monte Carlo仿真)的一致性检验,③制造工艺的不良模式(裂纹、气孔、尺寸偏差等)频率稳定性监测,④质量控制中特定缺陷类型的统计分布分析。Pearson χ² 计算简便、易于实现(甚至可在Excel中编程),是现场工程师的常用工具。通过本模拟器改变数据观察χ²和临界值的关系,能直观理解检定的灵敏度。

实际应用案例

遗传学与Mendelian比:古典遗传学中,F2代的表型分布应符合9:3:3:1的理论比。例如豌豆杂交实验观测到(312, 110, 102, 36)(总计560),期望值为(315, 105, 105, 35)。χ² = (9/315 + 25/105 + 9/105 + 1/35) ≈ 0.471,df=3,p ≈ 0.93,「完全符合Mendelian规律」。这是19世纪以来遗传学的标准判别方法。

随机数均匀性验证(Monte Carlo仿真):有限元的随机分析需要可靠的伪随机数生成器。对N=10000个样本在10个等宽区间均匀采样,理想情况下每个区间约1000个。如果某个区间只有800个而另一个有1200个,χ² 可量化这种偏离。Mersenne Twister等算法的标准测试套件(Diehard, TestU01)都基于多项卡方检定。

制造质量管理:某电子产品一个班次的不良品分为{尺寸超差、焊接缺陷、元件错装、外观瑕疵}四类。若历史数据比例为40:25:20:15,今天观测到(35, 28, 25, 12)(总100件)。期望为(40, 25, 20, 15),χ² = (25/40 + 9/25 + 25/20 + 9/15) ≈ 2.97,df=3,不显著。说明今天的不良分布未超出随机波动范围,无需调查工艺变化。

市场调查与A/B测试:网站推荐系统对4个商品款式进行A/B/C/D测试,观测点击数(45, 38, 52, 41)。零假设为「均等吸引力」(E_i=44),χ² = (1/44 + 36/44 + 64/44 + 9/44) ≈ 2.50,df=3,p ≈ 0.48。判断:四种款式的人气无显著差异,可继续并行运营或样本量不足,需扩大测试。

常见误区与注意事项

误区1:χ²值越大越"不好"。χ²的大小本质上反映「观测与期望的偏离程度相对于期望的比值」。但由于χ²与样本量 N 近似成正比,N=10时χ²=8和N=10000时χ²=8意义完全不同——后者可能只是微小的相对偏离被大样本放大了。应配合效应量(Cramér's V或Cohen's w)和p值理解,而不单看χ²的数值。

误区2:忽视独立性假设。Pearson χ² 要求各观测相互独立。如果数据来自同一受试者的重复测量(配对样本),应用McNemar检定或Cochran's Q检定;如果样本存在聚类结构(如同一家族、同一机器、同一批次),独立性被违反,χ²倾向过度显著。

误区3:对分组方案不敏感。当将连续变量离散化为分类后进行拟合优度检定时,分组数k和各组宽度的选择会显著影响结果。Sturges、Freedman-Diaconis等规则可自动选择,但报告结果时必须明确说明分组方案。

误区4:p值和显著性混淆。p < 0.05表示「在零假设下,观测到当前或更极端数据的概率 < 5%」,不等于「零假设错误的概率 > 95%」。卡方检定是频率学派方法,无法直接给出假设的概率,只能说「在给定显著水平下,拒绝或不拒绝」。

使用指南

  1. 使用滑块O_1~O_4调整各分类(例如制造工艺A~D阶段)的观测频数,范围0~100
  2. 理论频数基于均等分布自动计算(各分类占总体的25%)
  3. χ²统计量=(Σ(观测频数-理论频数)²/理论频数)实时生成
  4. 在自由度df=分类数-1=3下,与5%显著水平的拒绝临界值7.815进行对比判定

具体计算示例

生产批检中400件产品按A~D四等级分类:若观测频数为A=120、B=85、C=95、D=100,则理论频数各为100件。χ²=(400+225+25+0)/100=6.5,低于 df=3 的临界值7.815(p≈0.090>0.05),故不能拒绝零假设——该偏差在随机波动范围内,不能判定生产工艺存在偏差。

实务注意事项