材料设计与实验规划:探索新材料合成条件(温度、组成、时间)时,每次实验成本极高。基于 GP 的贝叶斯优化能从过去的实验结果中提出「下一步应试的最有希望条件」,显著减少实验次数。已在电池材料、催化剂、合金开发、新药研发中实用化。
仿真的代理模型(surrogate model):与其多次运行重型 CFD 或 FEM 仿真,不如用少量计算结果训练一个 GP 作为代理模型。设计优化、灵敏度分析、不确定性传播分析的计算代价可降低几个数量级。飞机机翼气动设计、汽车碰撞分析的稳健优化等均有应用。
地统计学(Kriging):GP 的地理空间版本「Kriging」自1960年代起就用于矿床评估、土壤污染图、气象数据的空间插值。能从少量测点估计未测点的值及其不确定性,也有助于选择下一个采样位置。其实 GP 在地统计学界很早就以「Kriging」之名为人所知。
常见误解与注意事项
最常见的误解是认为「超参数(l, σ_f, σ_n)可以随便设」。实际上这些值决定了预测质量。在模拟器里把 l 滑块拉到 0.1 和 5.0 两个极端,前者完全过拟合观测噪声,后者则完全捕捉不到真实振动。实务中务必通过最大化对数边际似然自动调参,最起码也要用交叉验证选 l。「目测看着合理的值」非常危险。
其次常见的是把 GP 的预测区间误读为「预测值一定有95%概率落在那里」。这是「在当前模型(核选择+超参数)下的概率」,如果模型与现实不符就毫无意义。例如真实函数是周期的但用了 RBF 核,置信带只能表达「平滑函数下的不确定性」,会忽略结构性偏差。除了带宽,还要单独验证「预测均值与真实函数的偏离程度」。
最后要注意,「增加观测点未必能提升精度」。N 增大时核矩阵条件数会变差,Cholesky 分解容易出现数值不稳定。实现上要在对角线加上微小的 jitter(10⁻⁶ 量级)以稳定计算。计算量也按 O(N³) 增长,所以 N 超过几千就需要考虑稀疏 GP 或诱导点法。本模拟器把 N 上限设为 30,但实用中要时常权衡「增加数据」与「重新审视核选择」哪个更有效。