予測確率 p に対する交差エントロピー損失(急峻に立ち上がる曲線)とMSE損失(なだらかな放物線)を、現在の正解ラベル y について重ねて表示します。現在の動作点 p を両曲線上にマークします。
$$\text{CE}=-\big[y\ln p+(1-y)\ln(1-p)\big],\qquad \text{MSE}=(p-y)^2$$
二値分類の損失。p:シグモイド予測確率 p = σ(z) = 1/(1+e^−z)、y:正解ラベル(0 または 1)。
$$\frac{\partial \text{CE}}{\partial z}=p-y,\qquad \frac{\partial \text{MSE}}{\partial z}=2(p-y)\,p(1-p)$$
ロジット z に関する勾配。CEの勾配は誤差 p−y そのもの。MSEの勾配にはシグモイドの導関数 p(1−p) が掛かる。
出力が飽和(p≈0 または p≈1)すると p(1−p)→0 となり、MSEの勾配は消失するが、CEの勾配は ±1 付近を保つ。これが分類で交差エントロピーが標準損失となる理由である。