粗线表示真实函数,细线群表示各数据集的拟合曲线(宽度=方差),粗线表示平均预测(与真实函数的差=偏差)。散点为当前强调的1个数据集。
$$\mathbb{E}\big[(y-\hat f)^2\big]=\underbrace{(\,\overline{\hat f}-f\,)^2}_{\text{偏差}^2}+\underbrace{\mathbb{E}\big[(\hat f-\overline{\hat f})^2\big]}_{\text{方差}}+\underbrace{\sigma^2}_{\text{噪声}}$$
测试点处的期望平方误差可分解为偏差²、方差、既约误差(噪声方差σ²)三部分。$\hat f$ 为学习得到的模型,$\overline{\hat f}$ 为改变数据集时的平均预测,$f$ 为真实函数。
$$\text{Bias}^2=\frac{1}{N}\sum_x\big(\overline{\hat f}(x)-f(x)\big)^2,\qquad \text{Var}=\frac{1}{N}\sum_x\mathbb{E}_D\big[(\hat f_D(x)-\overline{\hat f}(x))^2\big]$$
在测试网格上平均的偏差²和方差。$\hat f_D$ 为在数据集 $D$ 上学习的模型。
提高模型复杂度会降低偏差但增加方差。二者的权衡使得期望总误差关于复杂度呈U形,最小值处为最优泛化性能。