椭圆形损失等高线(多重共线性使其扁平)对应 λ 增加时,β̂ 从 OLS 最小点向 0 移动的岭路径。颜色表示推荐 λ 范围(绿=最优附近)。
$$\hat\beta_{\text{ridge}} = (X^{\top} X + \lambda I)^{-1} X^{\top} y, \qquad df(\lambda) = \sum_{i=1}^{p} \frac{s_i^{2}}{s_i^{2} + \lambda}$$
s_i 为 X 的奇异值,λ=0 时为 OLS,λ→∞ 时系数收缩为 0。用交叉验证(k-fold / GCV / LOOCV)选择最优 λ 是标准做法。
$$\text{MSE}(\hat\beta) \;=\; \underbrace{\bigl\|\,(I-(X^{\top}X+\lambda I)^{-1}X^{\top}X)\beta^{*}\,\bigr\|^{2}}_{\text{Bias}^{2}} \;+\; \underbrace{\sigma^{2}\,\text{tr}\bigl[(X^{\top}X+\lambda I)^{-2}X^{\top}X\bigr]}_{\text{Variance}}$$
估计误差分解为偏差平方和方差。增加 λ 偏差增加、方差减小——两者之和最小的 λ 为最优点。