青点が通常データ、赤点が外れ値。赤線が OLS 推定、青線が Huber 推定。外れ値割合・強度を上げると OLS 線が傾き、Huber 線は真の傾き付近に踏みとどまります。
$$\rho_\delta(r) = \begin{cases} r^2/2 & |r|\leq\delta \\ \delta(|r|-\delta/2) & |r|\gt \delta \end{cases},\quad \delta=1.345\,\sigma$$
ρ_δ:Huber loss、δ:二乗から線形へ切り替える閾値。|r|>δ で線形成長することで、外れ値の影響を有界化する。
$$\psi_\delta(r)=\rho_\delta'(r) = \begin{cases} r & |r|\leq\delta \\ \delta\cdot\mathrm{sign}(r) & |r|\gt \delta \end{cases},\quad |\psi_\delta|\leq\delta$$
影響関数 ψ_δ:1 個のデータが推定値を動かす量。OLS は ψ(r)=r で無限大、Huber は |ψ|≤δ で有界(bounded influence)。
$$\mathrm{ARE}_{\mathrm{Huber}/\mathrm{OLS}}^{\mathcal{N}}(\delta=1.345\sigma)\approx 0.95$$
正規データ下での Huber と OLS の漸近相対効率。δ=1.345σ なら効率損失は 5% だけで、外れ値耐性が得られる。