白线:真函数 A·sin(2πx),红圆:训练点(含观测噪声),蓝线:Kriging 预测均值,蓝带:95% 置信区间。观测噪声动态波动显示。
$$\hat\mu(x_*) = k_*^T K^{-1} y,\qquad \hat\sigma^2(x_*) = k(x_*,x_*) - k_*^T K^{-1} k_*$$
K = 核矩阵(N×N,K_{ij}=k(x_i,x_j)+σ_n²δ_{ij}),k_* = 预测点与训练点的协方差向量。同时提供后验均值 μ̂ 和方差 σ̂²。
$$k_{SE}(r) = \sigma_f^2 \exp\!\left(-\frac{r^2}{2\ell^2}\right)$$
平方指数(RBF)核函数。r=|x−x'|,ℓ=相关长度,σ_f²=信号方差。假设无限次可微的「最光滑的」函数族。
$$k_{M5/2}(r) = \sigma_f^2\left(1+\frac{\sqrt{5}\,r}{\ell}+\frac{5r^2}{3\ell^2}\right)\exp\!\left(-\frac{\sqrt{5}\,r}{\ell}\right)$$
Matérn 5/2 核函数(贝叶斯优化的默认选择)。2阶可微,比 SE 能表现更急剧的变化。
$$\log p(y\mid X,\theta) = -\tfrac12 y^T K^{-1} y - \tfrac12 \log|K| - \tfrac{N}{2}\log(2\pi)$$
对数边际似然。第1项=数据拟合,第2项=模型复杂度惩罚。通过对 θ=(ℓ,σ_f²,σ_n²) 最大化来估计超参数。