太い水色の曲線が真の関数、点が学習データ、橙色の曲線がフィットしたモデル。過学習するとモデルがノイズを縫って波打ち、学習不足だと真の曲線に追従できません。
$$E_{val}\;=\;\underbrace{\text{bias}^2}_{\text{学習不足で大}}+\underbrace{\text{variance}}_{\text{過学習で大}}+\sigma^2$$
検証誤差はバイアスの2乗・バリアンス・既約誤差 σ² の和に分解されます。学習誤差と検証誤差のギャップが小さいのに誤差が高ければ学習不足、ギャップが大きければ過学習のサインです。
$$\hat{w}\;=\;\big(X^{\!\top}X+\lambda I\big)^{-1}X^{\!\top}y$$
リッジ正則化付き最小二乗の正規方程式。X はヴァンデルモンド計画行列、λ は正則化の強さ。λ を上げると重み w が小さく抑えられ、過学習が緩和されます。
$$\text{MSE}\;=\;\frac{1}{m}\sum_{i=1}^{m}\big(\hat{f}(x_i)-y_i\big)^2$$
学習誤差は学習に使った m 点で、検証誤差は固定の検証データで評価した平均二乗誤差です。