从左到右:生批次、归一化后(均值0·标准差1)、仿射变换后(均值β·标准差γ)的分布。用点表示关注样本 x → x̂ → y 的位置。
$$\hat x=\frac{x-\mu_B}{\sqrt{\sigma_B^{2}+\varepsilon}},\qquad y=\gamma\,\hat x+\beta$$
归一化值 x̂ 和BN输出 y。批次的均值 μB 和方差 σB² 从整个小批次计算,缩放 γ 和移位 β 通过误差反向传播学习。ε是用于数值稳定化的微小常数(本工具中为 1e-5)。
$$\mathrm{E}[\hat x]\approx0,\quad \mathrm{Std}[\hat x]\approx1,\qquad \mathrm{E}[y]=\beta,\quad \mathrm{Std}[y]=\gamma$$
归一化后的批次均值≈0·标准差≈1。仿射变换后的批次均值=β·标准差=γ。