白:真関数 A·sin(2πx)、赤丸:訓練点(観測ノイズ付)、青線:Kriging 予測平均、青帯:95% 信用区間。観測ノイズが動的に揺らぐ様子も表示します。
$$\hat\mu(x_*) = k_*^T K^{-1} y,\qquad \hat\sigma^2(x_*) = k(x_*,x_*) - k_*^T K^{-1} k_*$$
K = カーネル行列(N×N、K_{ij}=k(x_i,x_j)+σ_n²δ_{ij})、k_* = 予測点と訓練点の共分散ベクトル。事後平均 μ̂ と分散 σ̂² を同時に提供する。
$$k_{SE}(r) = \sigma_f^2 \exp\!\left(-\frac{r^2}{2\ell^2}\right)$$
平方指数(RBF)カーネル。r=|x−x'|、ℓ=相関長、σ_f²=信号分散。無限回微分可能な「最も滑らかな」関数族を仮定する。
$$k_{M5/2}(r) = \sigma_f^2\left(1+\frac{\sqrt{5}\,r}{\ell}+\frac{5r^2}{3\ell^2}\right)\exp\!\left(-\frac{\sqrt{5}\,r}{\ell}\right)$$
Matérn 5/2 カーネル(Bayesian Optimization のデフォルト)。2回微分可能で、SE より急な変化も表現できる。
$$\log p(y\mid X,\theta) = -\tfrac12 y^T K^{-1} y - \tfrac12 \log|K| - \tfrac{N}{2}\log(2\pi)$$
対数周辺尤度。第1項=データ適合、第2項=モデル複雑さペナルティ。これを θ=(ℓ,σ_f²,σ_n²) で最大化してハイパーパラメータを推定する。