针对当前真实标签 y,将两条损失曲线对预测概率 p 一同绘制——交叉熵曲线(陡峭上升)与 MSE 曲线(平缓抛物线)——并在两条曲线上标出当前工作点 p。
$$\text{CE}=-\big[y\ln p+(1-y)\ln(1-p)\big],\qquad \text{MSE}=(p-y)^2$$
二分类的两种损失。p:Sigmoid 预测概率 p = σ(z) = 1/(1+e^−z),y:真实标签(0 或 1)。
$$\frac{\partial \text{CE}}{\partial z}=p-y,\qquad \frac{\partial \text{MSE}}{\partial z}=2(p-y)\,p(1-p)$$
对逻辑值 z 的梯度。CE 梯度即误差 p−y 本身;MSE 梯度带有 Sigmoid 导数 p(1−p)。
当输出饱和(p≈0 或 p≈1)时 p(1−p)→0,MSE 梯度消失,而 CE 梯度保持在 ±1 附近。这正是分类中交叉熵成为标准损失的原因。