横轴为原始权重w₀,纵轴为正则化后的权重。L1在[−λ,λ]范围内(脉动区域)将权重变为0,L2是通过原点斜率为1/(1+λ)的直线。点A·B·C是当前的3个权重。
$$w_{L2}=\frac{w_0}{1+\lambda}\qquad\text{(Ridge: 比例缩小)}$$
L2正则化将原始权重w₀乘以系数1/(1+λ)来统一缩小。无论λ多大,也不会达到0。
$$w_{L1}=\operatorname{sign}(w_0)\max(|w_0|-\lambda,\,0)\qquad\text{(Lasso: 软阈值)}$$
L1正则化用软阈值函数来缩小权重。当|w₀|≤λ时权重变为正好0,得到稀疏(疏)的模型。L2不会产生这种严格的零化。
$$\hat{w}=\arg\min_w\;\tfrac12(w-w_0)^2+\lambda\,R(w),\quad R_{L1}=|w|,\;R_{L2}=\tfrac12 w^2$$
两者都是在「原估计值w₀的接近度」和「惩罚R(w)」间取得平衡的优化。在正交设计下,这个解可以用上面的两个公式来闭式表示。