層のニューロンを格子状に表示します。点灯したニューロンは保持、灰色+×印は今回ドロップされたもの。マスクは約1.5秒ごとに引き直され、毎回ちがう部分ネットワークが現れます。
$$\text{(訓練時)}\quad y_i=\frac{m_i}{p}\,a_i,\qquad m_i\sim\text{Bernoulli}(p)$$
訓練時、各ニューロン i は確率 p で残り($m_i=1$)、確率 $1-p$ で消える($m_i=0$)。生き残った活性 $a_i$ は 1/p 倍にスケールされる。これが逆ドロップアウト(inverted dropout)で、推論時はマスクもスケーリングも不要でネットワークをそのまま使える。
$$P(k)=\binom{n}{k}p^{k}(1-p)^{n-k},\qquad \mathbb{E}[k]=np$$
n 個中ちょうど k 個が保持される確率は二項分布に従い、保持数の期待値は np。出力の期待値は $\mathbb{E}[\sum m_i a_i / p]=\sum a_i$ で、ドロップ前と一致する。
$$N_{\text{sub}}=2^{n},\qquad \log_{10}N_{\text{sub}}=n\log_{10}2$$
各ニューロンが「残る/消える」の2状態を取るため、可能なサブネットワークは $2^{n}$ 通り。ドロップアウトはこの指数的に多い細いネットワークを暗黙に同時訓練している。