左から右へ層が並びます。各ノードの明るさ・大きさはその層の活性化 std を表し、信号パルスが層を伝わります。消える信号は右へ向かって暗くなり、発散する信号は眩しく膨らみます。
$$\text{Xavier: }\mathrm{Var}(W)=\frac{1}{n_{in}},\qquad \text{He: }\mathrm{Var}(W)=\frac{2}{n_{in}}$$
重みの分散の決め方。n_in はファンイン(その層への入力ユニット数)。He は ReLU 用、Xavier は tanh・シグモイド用。
$$\mathrm{Var}(z_\ell)=n\cdot\mathrm{Var}(W)\cdot\mathrm{Var}(a_{\ell-1})$$
線形層を通った後の信号 z の分散。n 個の入力 aᵢ に重み wᵢ を掛けて足し合わせた結果。
$$\mathrm{Var}(a_\ell)=g\cdot\mathrm{Var}(z_\ell)$$
活性化後の分散。ReLU は分散の約半分を捨てる(g≈0.5)ため、He は Var(W) を2倍にしてこれを補い、層を通っても分散が一定に保たれる。