正态分布·统计计算工具 返回
统计学·概率论

正态分布·统计计算工具

实时操作平均值μ和标准差σ,动态改变正态分布的形状,实时计算PDF·CDF·置信区间·z得分。通过68-95-99.7法则和偏差值直观理解分布。

分布参数

μ ± 1σ 68.27%
μ ± 2σ 95.45%
μ ± 3σ 99.73%
计算结果
PDF(概率密度)
CDF(累积概率)
z得分
偏差值
正态分布 N(μ,σ²)
理论·主要公式
$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$ $\mu$:平均值, $\sigma$:标准差, $\sigma^2$:方差

累积分布函数(CDF)和误差函数

$$F(x) = \int_{-\infty}^{x} f(t)\,dt = \frac{1}{2}\left[1 + \text{erf}\!\left(\frac{x-\mu}{\sigma\sqrt{2}}\right)\right]$$

z得分和偏差值

z得分: $z = \dfrac{x - \mu}{\sigma}$  偏差值: $T = 10z + 50$

正态分布的基础理论

对话学习正态分布

🙋
为什么测试成绩、身高这样的各种数据都呈正态分布?
🎓
有一个叫「中心极限定理」的理论。当许多独立的随机因素相加时,其和的分布与原分布的形状无关,会趋向正态分布。身高受遗传基因、营养、环境等数千个因素影响;测试成绩也受知识、身体状态、与题目的相性等多个因素影响。因此自然呈钟形。
🙋
工厂常提到的「3σ管理」与正态分布有关系吗?
🎓
正是应用了正态分布的68-95-99.7法则。在正态分布中,±3σ范围外的概率仅为0.27%(1万个中约27个)。品质管理中如果「设定±3σ以内为合格」,不良率就会是0.27%。六西格玛更严格,设定为±6σ(100万个中仅3.4个),在汽车和半导体制造中广泛应用。
🙋
知道偏差值50是「平均」,但偏差值70有多罕见?
🎓
偏差值70对应z=2.0。在正态分布中P(z>2.0) ≈ 2.3%,即排名在全体考生的上位约2.3%。偏差值80则z=3.0,P(z>3.0) ≈ 0.13%——1000人中仅1.3人。如果用这个工具,σ=10、μ=50,设置评估点为70或80并查看CDF,就能确认其罕见程度。
🙋
在CAE中如何应用正态分布?这与有限元法是分开的吗?
🎓
关系密切。例如在「结构可靠性分析」中,应力σ(正态分布)和材料强度R(正态分布)的差 Z=R-σ 的分布用于计算破坏概率 Pf=P(Z<0)。蒙特卡洛仿真中,为输入变量分配正态分布,执行多次解析,推估输出(应力、位移等)的分布。尺寸公差分析(工具链分析)也以正态分布为基础。

常见问题

根据中心极限定理,当样本数≥30时,样本平均值的分布会趋向正态分布,多数情况下可以使用。但若数据严重偏斜或含有异常值,应采用非参数检验(如曼-惠特尼检验)。
当ln(X)服从正态分布时使用对数正态分布。材料强度、疲劳寿命、地震规模、金融价格等「不能为负且尾部较重」的数据适用。FEM材料离散度分析中常对疲劳强度假设对数正态分布。
无严格的闭式解,需用数值积分或误差函数erf(x)。常用Abramowitz & Stegun的有理近似(误差 < 1.5×10⁻⁷)。本工具采用有理近似计算高精度CDF。
标准正态分布是μ=0、σ=1的特殊正态分布。任意正态分布N(μ,σ²)都可通过z=(x-μ)/σ变换转化为标准正态分布。借助z得分表(标准正态分布表)可计算任意正态分布的概率,这在手工计算时代被广泛使用。

正态分布·统计计算工具简介

正态分布由围绕平均值μ对称的钟形概率密度函数(PDF) \( f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \) 表示。本模拟器用滑块操作μ和标准差σ,即时观察分布形状的变化。例如σ变小时曲线尖峭,σ变大时扁平。累积分布函数(CDF)定义为 \( F(a) = \int_{-\infty}^{a} f(x) dx \),用于计算指定区间的概率。置信区间基于68-95-99.7法则,约68%的数据在μ±σ内,95%在μ±2σ内,99.7%在μ±3σ内,可视化验证。z得分由 \( z = \frac{x-\mu}{\sigma} \) 计算,便于不同正态分布间的比较。偏差值是转换为平均50、标准差10的值,由z得分经 \( T = 50 + 10z \) 计算。通过动态改变参数,实时观察概率密度和累积概率,能直观掌握统计推论的基础。

$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$

实际应用

产业实际应用案例(汽车行业)
丰田汽车的发动机零部件制造线使用与本工具类似的正态分布模型进行活塞环外径尺寸管理。平均μ=50.00mm、标准差σ=0.02mm的工艺能力指数(Cp/Cpk)实时监控,从z得分即时计算超过规格上限50.05mm的不良发生概率。通过统计预测切削刀具磨损进程,优化预防更换周期。年度不良品削减率提升约30%。

研究·教育应用
东京大学统计学基础实习中,用本工具视觉化学习「偏差值60以上的学生占比」。在μ=50、σ=10的正态分布上确认z得分=1.0对应的CDF值为84.13%,动态体验68-95-99.7法则。药学部用本工具对治验数据的血液浓度分布建模,让学生自主计算有效血液浓度范围内的概率,培养统计思维能力。

CAE分析的结合与实务位置
汽车碰撞分析(LS-DYNA)中,假定钢板屈服强度服从正态分布(μ=350MPa、σ=15MPa)。将CAE得到的应力分布与本工具设定的99.7%置信区间(μ±3σ)比对,判断是否满足安全系数1.2的设计要求。在产品开发上游工程实现「考虑离散的稳健设计」,减少试制次数并提供品质保证依据。

常见误解与注意事项

「标准差越大数据离散越大」这点是正确的,但容易误认为「服从正态分布的数据中平均值±1σ范围必然含约68%」。实际上这只是理论值,样本量小或数据与完全正态分布有偏离时,实测值可能与68%有较大差异。特别是实务中常因异常值和测量误差导致分布尾部延伸,不应过信68-95-99.7法则,需与实际数据分布相结合解释。

同样,「偏差值50为平均,60则排名上位约16%」是正确的,但易误认为「偏差值越高越优秀」。实际上偏差值只显示该集团内的相对位置,不同考试间的偏差值不可直接比较。例如考生层级不同的两个考试中,相同偏差值60的实际学力水准可能完全不同,需注意这一点。

使用指南

  1. 通过lbl-mu设定平均值。在制造业零部件尺寸管理中,若以100mm为基准,则输入100
  2. 通过lbl-sig指定标准差。品质管理中执行±3σ范围内管理,σ=0.5mm时,置信区间为100±1.5mm
  3. 在lbl-xv中输入要评估的测定值,实时计算其z得分(标准化值)、概率密度函数PDF值、累积分布函数CDF值

具体计算示例

汽车发动机零部件外径管理中,平均μ=50.00mm、标准差σ=0.08mm的制造条件下,测定值x=50.10mm的零部件,z得分为(50.10-50.00)/0.08=1.25,CDF值约0.894,表示该零部件位于下侧89.4%位置。反之x=49.90mm则z=-1.25,CDF值约0.106。由68-95-99.7法则可确认,±1σ范围内(49.92~50.08mm)含有全体的68.3%。

实务中的注意事项

  1. 医药品含量管理中,公定值±10%的规格范围内应容纳99.73%(3σ范围),通过本工具验证工艺能力Cpk=(USL-μ)/3σ
  2. 食品制造重量管理中,平均500g、σ=2g的情况,z=±3时范围为494~506g,可通过CDF判定下限494g以下的不良率约为0.13%(498g对应z=−1,约15.9%)
  3. σ输入值过小会导致置信区间不当地过窄。需事先通过正态性检验(Shapiro-Wilk检验)确认数据的正态性