z检验和t检验如何选择？

当总体标准差σ已知时使用z检验；当σ未知、需从样本估计标准差s时使用t检验。实际中σ很少已知，因此t检验更为常用。当样本量较大（n≥30）时，t分布趋近于正态分布，两种检验结果几乎相同。

p值是什么意思，如何解读？

p值是在原假设H₀为真的前提下，观测到当前或更极端检验统计量的概率。若p值小于显著性水平α（如0.05），则拒绝H₀，认为存在统计显著差异。注意：p值反映的是证据强度，而非效应大小。

Cohen's d效应量表示什么？

Cohen's d = |x̄ − μ₀| / s 是标准化的效应量，衡量差异相对于变异性的大小。参考标准：d=0.2（小效应）、d=0.5（中效应）、d≥0.8（大效应）。样本量很大时，即使微小差异也可能达到统计显著，此时Cohen's d能反映实际重要性。

假设检验在CAE和质量管理中如何应用？

主要应用场景：①验证材料批次间差异的统计显著性；②对比仿真结果与实验测量值的偏差；③量化设计改进前后的性能变化；④工艺参数敏感性分析。双样本t检验特别适用于比较新旧设计或两种工艺条件的质量差异。

假设检验计算器（z检验 · t检验） — 免费在线计算器

检验设置

检验类型

备择假设方向

显著性水平 α

样本 1

样本均值 x̄₁

样本标准差 s（或 σ）

样本量 n₁

原假设总体均值 μ₀

样本 2

样本均值 x̄₂

样本标准差 s₂

样本量 n₂

计算结果

—

检验统计量 t

—

p 值

—

临界值

—

自由度 df

—

Cohen's d

分布与拒绝域

理论与主要公式

单样本 z 检验：$z = \dfrac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$

单样本 t 检验：$t = \dfrac{\bar{x} - \mu_0}{s / \sqrt{n}}$，自由度 $df = n-1$

双样本 t 检验：$t = \dfrac{\bar{x}_1 - \bar{x}_2}{s_p\sqrt{1/n_1+1/n_2}}$，$s_p^2 = \dfrac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$

效应量：Cohen's $d = \dfrac{|\bar{x} - \mu_0|}{s}$（小:0.2, 中:0.5, 大:0.8）

什么是假设检验

🙋

假设检验是什么？听起来好学术啊。

🎓

简单来说，它就像是一个“数据侦探”，帮我们判断一个观察到的差异是真实存在的，还是只是偶然发生的。比如，我们改进了一个零件的生产工艺，新工艺生产的零件平均强度是105MPa，而旧工艺是100MPa。这5MPa的差异是真的改进，还是只是这次抽样运气好？假设检验就用来回答这个问题。你可以在模拟器里输入这些数据试试看。

🙋

诶，真的吗？那模拟器里要填的“原假设总体均值μ₀”和“样本均值x̄”是什么意思？

🎓

“原假设”就是我们默认认为没变化的情况，比如μ₀=100MPa，代表旧工艺水平。“样本均值x̄”就是你实际测量到的新工艺数据，比如105MPa。检验的核心就是看x̄和μ₀的差距够不够大。你试着在模拟器里把x̄从105慢慢拖到110，会发现旁边的p值会迅速变小，图形上的阴影区域（p值区域）也会缩小，这直观地告诉你，差距越大，偶然发生的概率就越低。

🙋

哦！那旁边的“Cohen‘s d”又是什么？它和p值不一样吗？

🎓

问得好！p值告诉你差异“是否显著”，而Cohen‘s d告诉你差异“有多大”。比如，样本量巨大时，即使只差1MPa，p值也可能很小（统计显著），但这个差异在工程上可能微不足道。Cohen‘s d就是把差值用数据的波动（标准差）标准化，d=0.5表示中等效应。你可以在模拟器里固定x̄和μ₀的差，但把“样本标准差s”调大，会发现p值可能变化不大，但Cohen‘s d会明显变小，这说明波动大了，效应量就显不出来了。

物理模型与关键公式

单样本t检验是工程中最常用的，因为我们通常不知道总体的真实标准差σ，只能用样本标准差s来估计。其核心是计算t统计量，它衡量了样本均值与原假设均值的差距，是标准误的多少倍。

$$t = \dfrac{\bar{x} - \mu_0}{s / \sqrt{n}}$$

其中，$\bar{x}$是样本均值，$\mu_0$是原假设总体均值，$s$是样本标准差，$n$是样本量。分母 $s / \sqrt{n}$ 叫做“标准误”，表示样本均值的典型波动范围。自由度 $df = n-1$，决定了所使用的t分布的具体形状。

为了量化差异的实际工程意义，而不仅仅是统计显著性，我们计算效应量Cohen‘s d。它是一个标准化指标，不受样本量大小的影响。

$$d = \frac{|\bar{x} - \mu_0|}{s}$$

这里，$|\bar{x} - \mu_0|$是均值的绝对差值，$s$是样本标准差。d值越大，代表效应越强。通常认为0.2是小效应，0.5是中等效应，0.8以上是大效应。

现实世界中的应用

CAE仿真验证：在汽车碰撞仿真中，用双样本t检验比较新旧材料方案的乘员伤害值。将仿真结果视为样本，检验新方案是否显著降低了伤害指标，同时用Cohen‘s d判断降低的幅度是否具有工程价值。

生产工艺优化：比如注塑成型工艺调整了温度参数。从新旧工艺下各抽取一批零件测量尺寸，使用双样本t检验判断尺寸均值是否有显著变化，确保工艺调整是受控且有效的。

质量控制与来料检验：对供应商新送的一批金属板材，抽样测量其屈服强度。使用单样本t检验，将样本均值与标准要求的强度值（μ₀）进行比较，快速判断该批次材料是否Pass。

实验数据与理论值对比：在材料力学实验中，测得一组复合材料的弹性模量实验值。使用单样本t检验，将其与理论预测值或文献报道值进行对比，评估实验结果的可靠性或理论模型的准确性。

常见误解与注意事项

使用本模拟器时，你可能会遇到一些令人困惑的地方。首先一个常见的误解是认为“p值越小 = 效应越大”。这是完全错误的。p值仅仅是“差异由偶然产生的概率的参考指标”。例如，尝试将样本量“n₁”设置为1000这样的大数值。你会发现，即使样本均值与总体均值之间的差异非常微小（例如100MPa与100.5MPa），p值也会低于0.05从而变得“显著”。这虽然表明差异“很可能存在”，但0.5MPa的差异在实际工程中是否有意义则是另一回事。因此，要养成查看Cohen's d的习惯。在这个例子中，d值会非常小，可以判断其实质效应几乎为零。

其次，要谨慎选择“单侧检验”与“双侧检验”。虽然在模拟器的“备择假设”中可以选择，但根据是检验“均值不同”还是“均值更大（或更小）”，拒绝域和p值会完全不同。例如，在只想确认材料强度“没有下降”的质量检验中，应使用单侧检验（更大的一侧）。如果随意使用双侧检验，可能会导致检验效能降低，从而漏掉实际存在的差异。

最后，不要忘记“正态性”前提。t检验隐含地假设数据服从正态分布。现实中的工程数据，特别是磨损量或破坏寿命等，常常服从对数正态分布。如果直接将此类数据用于t检验，可能会导致错误的结论。首要原则是先用直方图或Q-Q图确认数据的分布情况。

为了深入学习

通过本模拟器体验了基本原理后，下一步可以升级到更接近现实数据分析的形式。首先应该学习“双样本t检验”。这是比较从新旧两种材料或制造方法获得的独立数据组（例如，传统材料10个样本的强度与新素材10个样本的强度）的检验方法，是实际工作中最常用的。其检验统计量稍复杂一些，但核心思想相同，即用“两组数据合并后的波动”来标准化“两个均值的差”。

更进一步，理解t检验背后的数学背景，特别是“抽样分布”的概念至关重要。我们掌握的是“样本”这一部分数据，但样本均值 $\bar{x}$ 本身，如果抽取另一个样本也会得到不同的值（存在波动）。为什么在总体方差未知时，这个样本均值的波动分布服从的不是正态分布而是t分布？关键在于，使用估计值——样本标准差 $s$ ——会给真实的标准误 $\sigma/\sqrt{n}$ 带来不确定性。这一理解是通往置信区间计算以及更高级的方差分析（ANOVA）——比较三组及以上数据的方法——的重要基础。

最终，要意识到t检验是“参数检验”的一种，并记住当不满足其前提条件时，还有非参数检验（如曼-惠特尼U检验等）作为备选方案。丰富数据分析的工具箱，才能具备妥善处理各类工程数据的能力。

进阶学习指引

深化理论：在本工具的简化模型基础上，进一步研究非线性效应、三维行为和时间依赖现象。阅读专业教材和学术论文，掌握严格的数学推导，是提升工程解题能力的关键。

数值方法：系统学习有限元法（FEM）、有限差分法（FDM）和有限体积法（FVM），理解商业CAE求解器的内部运行机制，这将显著提升您设置有效仿真的能力。

实验验证：理论和仿真结果必须通过实验数据加以验证。养成将计算结果与测量值进行对比的习惯，这正是V&V（验证与确认）的精髓所在。

CAE工具：准备好后，可进一步探索Ansys、Abaqus、OpenFOAM、COMSOL等业界主流工具。通过本模拟器培养的物理直觉，将帮助您更有效地配置和使用这些工具。

假设检验计算器