从左到右排列各层。每个节点的亮度·大小表示该层活性化的std值,信号脉冲通过各层传播。消失的信号向右逐渐变暗,发散的信号则向外膨胀并发光。
$$\text{Xavier: }\mathrm{Var}(W)=\frac{1}{n_{in}},\qquad \text{He: }\mathrm{Var}(W)=\frac{2}{n_{in}}$$
权重分布的设定方法。n_in为扇入(该层输入单元数)。He用于ReLU,Xavier用于tanh·sigmoid。
$$\mathrm{Var}(z_\ell)=n\cdot\mathrm{Var}(W)\cdot\mathrm{Var}(a_{\ell-1})$$
线性层后的信号z的分布。n个输入aᵢ与权重wᵢ相乘求和的结果。
$$\mathrm{Var}(a_\ell)=g\cdot\mathrm{Var}(z_\ell)$$
激活后的分布。ReLU丢弃约一半分布(g≈0.5),所以He将Var(W)加倍以补偿,使得信号分布在层间保持稳定。