含噪训练点(蓝色)对真实函数(淡曲线)和梯度提升预测(粗阶跃曲线)的拟合过程。逐树添加,动画循环展示阶跃曲线如何贴近数据。
$$F_m(x)=F_{m-1}(x)+\eta\,h_m(x),\qquad h_m\ \text{fits}\ r_i=y_i-F_{m-1}(x_i)$$
第 m 阶的集成 $F_m$ 由前一阶 $F_{m-1}$ 加上学习率 $\eta$ 缩放的新树 $h_m$ 构成。各树 $h_m$ 拟合残差 $r_i$,二乘误差损失中残差恰好是损失的负梯度。
$$r_i=y_i-F_{m-1}(x_i)=-\left.\frac{\partial L}{\partial F}\right|_{F=F_{m-1}},\qquad L=\tfrac12\,(y-F)^2$$
残差是二乘误差损失 $L$ 对预测值 $F$ 的负梯度。因此「拟合残差后相加」操作等价于函数空间中梯度下降的一步。
$$\text{MSE}=\frac1N\sum_{i=1}^{N}\bigl(y_i-F_M(x_i)\bigr)^2,\qquad \text{降低率}=\Bigl(1-\frac{\text{MSE}_M}{\text{MSE}_0}\Bigr)\times100$$
训练 MSE 是应用全部 M 棵树后的平均二乘误差。降低率是从常数(平均值)预测的 MSE₀ 的改善比例。MSE 远低于噪声底线 σ² 时过拟合。