贝叶斯定理可视化工具 返回
概率与统计

贝叶斯定理可视化工具

调整先验概率、真阳性率、假阳性率,实时计算后验概率。通过柱状图和混淆矩阵可视化医疗检测、质量管理、机器学习中基于证据的概率更新。

参数设置

P(D|+) 后验概率(阳性预测值)
16.7%

暂停时,拖动滑块即可即时更新结果。

实时数值
16.7%
后验概率 P(D|+)
9.9
真阳性 TP / 1000人
49.5
假阳性 FP / 1000人
1.00%
先验概率 P(D)
人群动画(1000人)
真阳性 TP 假阳性 FP 假阴性 FN 真阴性 TN

在所有检测为阳性的人(绿色+橙色)中,只有绿色才是真正患病的。这个比例就是后验概率 P(D|+)。当患病率很低时,假阳性会超过真阳性,因此即使灵敏度很高,预测值仍然很低(基础概率效应)。

与已知解对照
当患病率 1%、灵敏度 99%、特异度 95% 时,P(D|+) = 0.99×0.01 / (0.99×0.01 + 0.05×0.99) = 16.7%✓ 一致
理论与主要公式

贝叶斯定理(医疗检测):

\(P(D|+) = \dfrac{P(+|D)\,P(D)}{P(+|D)P(D) + P(+|\neg D)P(\neg D)}\)
\(P(+|\neg D) = 1 - \text{特异度}\), 检测阳性率 \(P(+) = P(+|D)P(D) + P(+|\neg D)P(\neg D)\)

验证示例:患病率 1%, 灵敏度 99%, 特异度 95% → P(D|+) ≈ 16.7%。

💬 关于贝叶斯定理的讨论

🙋
贝叶斯定理看起来很复杂,用简单的话怎么解释?
🎓
"当获得新证据时,应该如何更新原来的预测(先验概率)"的计算公式。医生看到检查结果后修改诊断、垃圾邮件过滤器根据邮件特征更新垃圾邮件概率——这些都是贝叶斯思维的应用。
🙋
在"罕见病检查"预设中,有病率1%但灵敏度99%的情况下,阳性预测值仍只有50%左右,这很奇怪。
🎓
这就是"基础概率谬误"。有病率1%(先验概率)的1000人群用灵敏度99%、特异度95%的检测,真正患病的10人中有9.9人为阳性,但健康的990人中也有49.5人被误诊为阳性。在阳性的59.4人中,真正患病的只有9.9人≈17%。即使灵敏度很高,当先验概率很低时,阳性预测值仍然会很低。
🙋
听说贝叶斯定理可以反复使用,是什么意思?
🎓
这叫"贝叶斯更新"。第一次检测得到的后验概率可以作为第二次检测的先验概率。重复检测会提高确定性。机器学习中每添加一个数据样本时更新参数概率分布的"在线学习"就是这个原理。
🙋
这个工具在CAE和仿真中也有用吗?
🎓
在不确定性量化(UQ)中会用到。比如材料弹性系数不明确时,先设定先验分布,然后与实验测量值比较,用贝叶斯估计更新参数分布。最后可以量化仿真输出的置信区间。这是数字孪生和模型验证与确认(V&V)中的关键方法。

常见问题

当先验概率设置为0%或100%时,无论是否有证据,后验概率都不会改变。如果真阳性率和假阳性率相同,证据就没有判别力,后验概率就会等于先验概率。请将滑块调到中间值重新尝试。
因为有病率(先验概率)只有1%,假阳性的绝对数量超过了真阳性。具体地说,1000人中真正患病的10人约有10人检测为阳性,990个健康人中约有10人被误诊为阳性,所以阳性预测值约为50%。
将一次计算获得的后验概率手动设置为下一步的先验概率滑块,就可以模拟逐步的贝叶斯更新。例如,将第一次检测得到的阳性预测值设置为先验概率,输入第二次检测结果,就能体验证据积累的效果。
在CAE中进行"贝叶斯校准",用实验数据来概率性地修正仿真模型的参数。本工具介绍的"先验概率→证据→后验概率"的过程,就是用实验结果基于设计参数的不确定性进行更新的实际应用。
灵敏度(真阳性率)和特异度(真阴性率)的区别?

灵敏度(Sensitivity)= TP/(TP+FN):患病人群中正确检测出阳性的比例。特异度(Specificity)= TN/(TN+FP):未患病人群中正确检测出阴性的比例。灵敏度和特异度存在权衡关系(ROC曲线)。

贝叶斯因子(Bayes Factor)如何解释?

K = P(B|A)/P(B|¬A)。K=1表示没有证据,K=3-10表示弱证据,K=10-30表示中等证据,K>100表示决定性证据(Jeffrey's scale)。贝叶斯因子是与先验概率无关的证据强度指标。

频率论(p值)与贝叶斯的区别?

频率论计算"当假设H₀正确时获得观测数据的概率(p值)"。贝叶斯则直接求"获得观测数据后假设的概率"。贝叶斯需要先验分布,但能给出更直观的解释("这个假设正确的概率是X%")。

垃圾邮件过滤如何使用贝叶斯?

预先学习每个单词出现在垃圾邮件中的概率P(word|spam)。对新邮件的每个单词顺次更新后验概率,超过阈值就判为垃圾。这是朴素贝叶斯分类器,"朴素"指假设单词间独立,但实际存在依赖关系。

贝叶斯定理可视化工具说明

贝叶斯定理可视化工具的物理模型将概率视为"信念强度",动态可视化通过观测数据的更新过程。基本公式为 \( P(A|B) = \frac{P(B|A) P(A)}{P(B)} \),其中 \( P(A) \) 是先验概率,\( P(B|A) \) 是真阳性率,\( P(B|\neg A) \) 是假阳性率。分母 \( P(B) \) 通过全概率法则 \( P(B) = P(B|A)P(A) + P(B|\neg A)P(\neg A) \) 计算,代表观测数据的生成概率。该模型再现了医疗检测中有病率低的情况下,即使检测精度高,假阳性也会极大扭曲后验概率的现象。在质量管理中,可设定不良品率的先验分布,通过样品检测结果逐步更新。拖动滑块改变各参数时,后验概率会非线性响应,实时观察有助于直观理解贝叶斯更新。

实际应用案例

工业实际应用示例
丰田汽车公司在焊接不良检测中应用本工具的思想。在超声波探伤检测中,以真阳性率95%、假阳性率2%的条件,从先验概率(生产线总体不良率1%)计算后验概率,判断是否需要复检。结果实现30%的废品削减,同时维持质量标准。

研究与教育应用
东京大学统计学基础课程中,学生通过移动滑块改变先验概率,可视化COVID-19 PCR检测的假阳性问题。可直观理解阳性结果下"实际感染概率"不仅取决于检测精度,还取决于感染率(先验概率)的特性,成为有效的教学素材。

CAE仿真与实际应用中的角色
航空发动机疲劳分析中对CAE结果进行贝叶斯更新。以历史实机数据作为先验概率,以非破坏性检查结果(证据)逐次计算后验概率,概率性地修正模型与实测值的偏差,优化维修检查周期。

常见误解与注意事项

"假阳性率低的话,阳性结果就意味着很可能患病"这样想法容易错误。但实际上,当先验概率(有病率)极低时,即使假阳性率只有1%,阳性预测值也可能只有几个百分点。例如千分之一的疾病假阳性率1%的情况下,阳性的实际患病概率仅9%。这种"忽视基础概率"是医疗检测和罕见情况检出中最容易陷入的误解。

"先验概率不确定,所以结果也不可靠"这种想法是错误的。贝叶斯定理的优势反而在于"不确定的先验概率可通过证据(检测结果)更新"。实际工作中,应对多个先验概率假设进行敏感性分析,检验结果的稳健性。

也要注意"真阳性率高就能放心用阴性结果否定"。即使真阳性率99%,假阴性率也有1%。尤其在先验概率较高的人群(症状患者等)中,假阴性的绝对数值不能忽视,不能作为完全否定。概率始终是"更新后的信念",而非确定诊断。

使用说明

  1. 设置先验概率 P(D)(患病率)滑块(例:医学检测中的患病率1%)
  2. 设置灵敏度 P(+|D)(真阳性率)(例:99%)
  3. 设置特异度 P(−|¬D)(真阴性率)(例:95%)。假阳性率为 P(+|¬D)=1−特异度
  4. 拖动三个滑块,人群(1000人)动画与各指标实时更新
  5. 后验概率 P(D|+) 作为阳性预测值显示

具体计算示例

甲状腺癌检测例:先验概率P(A)=0.005(患病率0.5%),灵敏度P(B|A)=0.90,假阳性率P(B|¬A)=0.08,阳性判定后的后验概率P(A|B)约为5.3%。用贝叶斯公式计算,P(A|B)=0.90×0.005/(0.90×0.005+0.08×0.995)≈0.053。即阳性也只表示患者概率低,必须进行追加检查(超声检查等)。质量管理中不良品率0.02、检查灵敏度0.98、误检率0.05的后验概率计算,能制作高可靠性的检验规范。

实际应用中的注意事项

  1. 医疗现场最重要的是精确把握先验概率。患者年龄、性别、风险因子等会大幅改变患病率,应使用分层数据而非总人口统计
  2. 避免混淆灵敏度和特异度。灵敏度=阳性人群检出率(P(B|A)),特异度=阴性人群正确判定率(1-P(B|¬A)),概念不同
  3. 制造业抽检中需平衡假阳性导致的批次废品成本与假阴性的流出风险,用后验概率定量评估
  4. 机器学习分类模型中类别不均衡数据情况下,精度指标不如后验概率(校准)重要