ノイズを含む訓練点(青)に対し、真の関数(薄い曲線)と勾配ブースティング予測(太い階段曲線)を表示。木を1本ずつ足してアニメーション再生し、階段がデータに寄り添っていく様子をループします。
$$F_m(x)=F_{m-1}(x)+\eta\,h_m(x),\qquad h_m\ \text{fits}\ r_i=y_i-F_{m-1}(x_i)$$
第 m 段のアンサンブル $F_m$ は、前段 $F_{m-1}$ に学習率 $\eta$ で縮小した新しい木 $h_m$ を足して作る。各木 $h_m$ は残差 $r_i$ にフィットし、二乗誤差損失ではこの残差が損失の負の勾配にあたる。
$$r_i=y_i-F_{m-1}(x_i)=-\left.\frac{\partial L}{\partial F}\right|_{F=F_{m-1}},\qquad L=\tfrac12\,(y-F)^2$$
残差は二乗誤差損失 $L$ の予測値 $F$ に関する負の勾配。だから「残差に木を当ててから足す」操作は関数空間での勾配降下の 1 ステップに等しい。
$$\text{MSE}=\frac1N\sum_{i=1}^{N}\bigl(y_i-F_M(x_i)\bigr)^2,\qquad \text{低減率}=\Bigl(1-\frac{\text{MSE}_M}{\text{MSE}_0}\Bigr)\times100$$
訓練 MSE は全 M 本適用後の平均二乗誤差。低減率は定数(平均)予測の MSE₀ からの改善割合。MSE がノイズフロア σ² を大きく割り込むと過学習。