蓝点为正常数据,红点为异常值。红线为 OLS 估计,蓝线为 Huber 估计。增加异常值占比和强度时,OLS 直线会偏离真实斜率,而 Huber 直线会保持在真实斜率附近。
$$\rho_\delta(r) = \begin{cases} r^2/2 & |r|\leq\delta \\ \delta(|r|-\delta/2) & |r|\gt \delta \end{cases},\quad \delta=1.345\,\sigma$$
ρ_δ:Huber loss,δ:从二次到线性的切换阈值。|r|>δ 时呈线性增长,限制异常值影响。
$$\psi_\delta(r)=\rho_\delta'(r) = \begin{cases} r & |r|\leq\delta \\ \delta\cdot\mathrm{sign}(r) & |r|\gt \delta \end{cases},\quad |\psi_\delta|\leq\delta$$
影响函数 ψ_δ:一个数据点对估计值的影响。OLS 中 ψ(r)=r 趋向无穷,Huber 中 |ψ|≤δ 有界(有界影响)。
$$\mathrm{ARE}_{\mathrm{Huber}/\mathrm{OLS}}^{\mathcal{N}}(\delta=1.345\sigma)\approx 0.95$$
正规数据下 Huber 与 OLS 的漸近相对效率。当 δ=1.345σ 时,效率损失仅 5%,同时获得异常值耐受性。