认知不确定性与偶然不确定性

分类: V&V ─ 不確かさ定量化 | 更新 2026-04-12
Epistemic vs aleatory uncertainty classification diagram with P-box and Dempster-Shafer visualization
認識的不確かさと偶然的不確かさの分類体系 ― P-boxによる統合表現のイメージ

理论与物理

两种不确定性

🧑‍🎓

老师,认知不确定性和偶然不确定性有什么区别?不都是“不确定性”吗?

🎓

问得好。简单来说,偶然不确定性(aleatory uncertainty)是自然界固有的变异性,即使增加再多数据也无法消除。而认知不确定性(epistemic uncertainty)源于知识不足,可以通过改进模型或增加数据来减少。

🧑‍🎓

具体有哪些例子呢?

🎓

以汽车碰撞试验为例。即使同一辆车在相同条件下碰撞,钢板的屈服应力每批都会略有不同。这是自然界的变异性——即偶然不确定性。即使做一百万次试验,这种变异性也不会为零。

另一方面,碰撞仿真中使用的摩擦系数通常直接采用文献值。因为我们不知道真实值,所以暂且假设 $\mu = 0.15$,如果进行精密实验就能接近真值。这就是认知不确定性

🧑‍🎓

原来如此。“能否减少”是关键点啊!

🎓

没错。另一点重要的是,在V&V(验证与确认)的国际标准 ASME V&V 20 中,要求明确区分并量化这两者。如果混在一起,就不知道哪里还有改进的余地了。

特性偶然性(Aleatory)认知性(Epistemic)
别名不可约不确定性、统计不确定性可约不确定性、系统性不确定性
原因自然变异性(概率性波动)知识/数据/模型的不足
可减少性不可 —— 本质上是随机的可 —— 通过模型改进/数据追加来减少
数学表达概率分布 $f_X(x)$区间 $[a, b]$、信念函数、P-box
CAE示例材料强度的批次间波动、风荷载变动湍流模型误差、未知的边界条件
传播方法Monte Carlo、PCE区间分析、Dempster-Shafer

偶然不确定性的数学表达

🧑‍🎓

如何用数学公式处理偶然不确定性?

🎓

偶然不确定性用概率论处理。给输入变量 $X$ 分配概率密度函数 $f_X(x)$,然后求输出 $Y = g(X)$ 的统计量。

$$ Y = g(X_1, X_2, \ldots, X_n), \qquad X_i \sim f_{X_i}(x_i) $$
🎓

输出 $Y$ 的期望值和方差可以这样表示:

$$ \mathbb{E}[Y] = \int g(\mathbf{x}) \, f_{\mathbf{X}}(\mathbf{x}) \, d\mathbf{x} $$
$$ \text{Var}[Y] = \mathbb{E}[Y^2] - (\mathbb{E}[Y])^2 $$
🧑‍🎓

也就是说,如果完全知道输入的概率分布,那么(理论上)也能计算出输出的分布,对吧?

🎓

完全正确。但实际中 $g(\cdot)$ 是庞大的CAE模型,无法解析积分。所以才会使用蒙特卡洛采样或多项式混沌展开(PCE)。

认知不确定性的数学表达

🧑‍🎓

认知不确定性不能用概率分布表示吗?

🎓

这个问题很敏锐。实际上有两个学派。贝叶斯主观概率派认为认知不确定性也可以分配概率分布。另一方面,非概率方法派认为“在数据不足的情况下假设概率分布是危险的”,主张用区间模糊集合来表示。

🎓

在区间表达的情况下,表示只知道变量 $\theta$ 的可能取值范围:

$$ \theta \in [\underline{\theta}, \overline{\theta}] $$
🎓

例如,湍流模型常数 $C_\mu$ 在不同文献中范围是 $0.07 \leq C_\mu \leq 0.11$。目前不知道这个范围内哪个值是“真实”的。这就是用区间表示的认知不确定性。

🧑‍🎓

概率分布和区间,传播方法也完全不同吧?

🎓

正是如此。所以为了混合处理两者,就需要P-box或Dempster-Shafer理论这样的框架。

概率箱(P-box)

🧑‍🎓

我听说过P-box这个名字,但说实话不太明白…

🎓

P-box(Probability box)是一种用累积分布函数(CDF)的上界和下界来表示不确定性的方法。其最大优点是可以同时处理偶然不确定性和认知不确定性。

$$ \underline{F}(y) \leq P(Y \leq y) \leq \overline{F}(y) \qquad \forall \, y $$
🎓

用具体例子来思考。假设钢材的屈服应力服从正态分布 $N(\mu, \sigma^2)$(这是偶然不确定性)。但由于批次数据不足,平均值 $\mu$ 不精确知道,只知道 $\mu \in [340, 360]$ MPa(这是认知不确定性)。此时,CDF不是一条曲线,而是带状区域。这个带就是P-box。

🧑‍🎓

啊,原来如此!表示知道分布的“形状”,但参数有变动的状态对吧。

🎓

完全正确。在信息更少的情况下(连分布形状都不知道),P-box也能用。在无分布P-box(distribution-free P-box)中,仅根据平均值和方差的范围,利用切比雪夫不等式来构造上下界。

Dempster-Shafer 证据理论

🧑‍🎓

我也听说过Dempster-Shafer理论。它和P-box有什么区别?

🎓

Dempster-Shafer(DS)理论是一个从不完全证据中表示信念程度的框架。概率论给每个事件分配一个概率,但DS理论使用信念函数 Bel似真函数 Pl 这两个度量来表示概率的下界和上界。

$$ \text{Bel}(A) \leq P(A) \leq \text{Pl}(A) $$
🎓

机制是这样的。首先定义基本概率分配(BPA: Basic Probability Assignment)$m$。这是一个表示每个证据“质量”的函数,分配给空集以外的子集:

$$ m: 2^\Omega \to [0, 1], \qquad m(\emptyset) = 0, \qquad \sum_{A \subseteq \Omega} m(A) = 1 $$
🎓

然后信念函数和似真函数定义如下:

$$ \text{Bel}(A) = \sum_{B \subseteq A} m(B), \qquad \text{Pl}(A) = \sum_{B \cap A \neq \emptyset} m(B) $$
🧑‍🎓

Bel 是“至少可以相信这么多”的下界,Pl 是“最多可以相信这么多”的上界,对吗?

🎓

理解得非常完美。在现场,例如当多位专家持有不同意见时使用。专家A说“参数在 $[2, 5]$ 范围内”,专家B说“在 $[4, 7]$ 范围内”。给每个意见分配可信度(BPA),然后用Dempster组合规则进行合并。这样就可以量化证据集中在哪个区间以及有多少证据。

🧑‍🎓

这看起来也能用作达成共识的工具呢。

ASME V&V 20 中的定位

🧑‍🎓

ASME V&V 20是怎么规定的?

🎓

ASME V&V 20-2009 "Standard for Verification and Validation in Computational Fluid Dynamics and Heat Transfer" 中,将模型的验证指标 $E$ 定义如下:

$$ E = S - D $$
🎓

这里 $S$ 是仿真结果,$D$ 是实验数据。然后将这个 $E$ 所包含的不确定性分解为以下三种:

  • $u_{\text{num}}$ —— 数值不确定性(离散化误差、迭代误差等):认知性
  • $u_{\text{input}}$ —— 输入不确定性(材料常数、边界条件的变异性):偶然性与认知性的混合
  • $u_D$ —— 实验不确定性(测量误差、再现性):偶然性与认知性的混合
$$ u_{\text{val}} = \sqrt{u_{\text{num}}^2 + u_{\text{input}}^2 + u_D^2} $$
🎓

关键是,即使 $|E| \leq u_{\text{val}}$,也不能说“模型已通过验证(validated)”,而应表述为“在验证不确定性的范围内一致”。并且要求将认知不确定性明确表示为未来研究中可以减少的部分。

🧑‍🎓

通过区分,就能看清“哪里还有改进的余地”了。非常合理。

偶然性与认知性难以判断的案例
  • 模型形式的不确定性:例如RANS湍流模型(k-epsilon vs SST)的选择。不清楚哪个模型是“正确”的,所以归类为认知性,但若创建模型选择的集成,有时看起来又像概率性的。ASME V&V 20将其定位为认知性。
  • 制造变异性:材料屈服应力的批次间变异是偶然性的,但批次内的系统性偏差是认知性的。如果有足够数据,可以分离。
  • 环境荷载:风速的季节性变化是偶然性的,但未来气候变化引起的变化是认知性的。分类会随时间尺度变化。

数值解法与实现

偶然不确定性的传播方法

🧑‍🎓

那么偶然不确定性具体怎么传播呢?

🎓

最标准的是蒙特卡洛采样(MCS)。从输入变量的概率分布中生成 $N$ 个样本,对每个样本执行CAE模型。输出的直方图自然就形成了。

$$ \hat{\mu}_Y = \frac{1}{N} \sum_{i=1}^{N} g(\mathbf{x}^{(i)}), \qquad \hat{\sigma}_Y^2 = \frac{1}{N-1} \sum_{i=1}^{N} \left( g(\mathbf{x}^{(i)}) - \hat{\mu}_Y \right)^2 $$
🧑‍🎓

需要多少个 $N$ 呢?CAE一次计算也很耗时吧?

🎓

收敛速度是 $O(1/\sqrt{N})$,不依赖于输入维度是其优势。但是,要准确捕捉分布的尾部,如99百分位数,通常需要 $N \geq 10{,}000$。在实际工作中,通常使用拉丁超立方采样(LHS)来大幅减少所需样本数。

方法收敛速度所需样本数特点
简单蒙特卡洛$O(N^{-1/2})$10,000〜1,000,000通用性高,高维也能用
拉丁超立方$O(N^{-1/2})$ 以上100〜10,000分层采样,方差减小
多项式混沌展开(PCE)指数级$(p+1)^n$ 〜低维/平滑响应能力强
克里金/高斯过程10〜100代理模型,适合少样本

认知不确定性的传播方法

🧑‍🎓

认知不确定性没有概率分布对吧?不能用蒙特卡洛吗?

🎓

是的。当认知不确定性用区间表示时,使用求输出最大值和最小值区间分析

$$ Y \in [\underline{Y}, \overline{Y}] = \left[ \min_{\theta \in [\underline{\theta}, \overline{\theta}]} g(\theta), \; \max_{\theta \in [\underline{\theta}, \overline{\theta}]} g(\theta) \right] $$
🎓

简单情况下,利用 $g$ 的单调性,只需评估端点即可。但如果有多个认知参数,就需要解优化问题。这时通常会使用全局优化算法(遗传算法或粒子群优化)。

🧑‍🎓

如果认知不确定性是用Dempster-Shafer表示的,那怎么办?

🎓

那种情况需要对每个焦元(focal element)评估模型,并构造输出侧的Bel和Pl。如果有 $m$ 个焦元,则至少需要 $2m$ 次(每个焦元的上下端点)模型评估。

混合不确定性的传播(双重循环法)

🧑‍🎓

现实中偶然性和认知性是共存的吧。两者同时怎么处理?

🎓
関連シミュレーター

この分野のインタラクティブシミュレーターで理論を体感しよう

シミュレーター一覧

関連する分野

この記事の評価
ご回答ありがとうございます!
参考に
なった
もっと
詳しく
誤りを
報告
参考になった
0
もっと詳しく
0
誤りを報告
0
Written by NovaSolver Contributors
Anonymous Engineers & AI — サイトマップ