粗青色曲线为真实函数,点为训练数据,橙色曲线为拟合模型。过度拟合时模型会在噪声间摆动,欠拟合时模型无法跟随真实曲线。
$$E_{val}\;=\;\underbrace{\text{bias}^2}_{\text{欠拟合时较大}}+\underbrace{\text{variance}}_{\text{过度拟合时较大}}+\sigma^2$$
验证误差分解为偏差平方、方差和不可约误差 σ² 的和。如果训练误差与验证误差间隙小但误差高,则为欠拟合;如果间隙大,则为过度拟合。
$$\hat{w}\;=\;\big(X^{\!\top}X+\lambda I\big)^{-1}X^{\!\top}y$$
带岭正则化的最小二乘法正规方程。X为范德蒙德设计矩阵,λ为正则化强度。增大λ会抑制权重w,缓解过度拟合。
$$\text{MSE}\;=\;\frac{1}{m}\sum_{i=1}^{m}\big(\hat{f}(x_i)-y_i\big)^2$$
训练误差在训练用的m个点上评估,验证误差在固定的验证数据上评估的均方误差。