层的神经元以网格形式显示。点亮的神经元是保留的,灰色的 × 标记是本次被丢弃的。掩码约每 1.5 秒重新抽样一次,每次显示不同的子网络。
$$\text{(训练时)}\quad y_i=\frac{m_i}{p}\,a_i,\qquad m_i\sim\text{Bernoulli}(p)$$
训练时,每个神经元 i 以概率 p 保留($m_i=1$),概率 $1-p$ 被丢弃($m_i=0$)。保留的活性 $a_i$ 被缩放 1/p 倍。这就是逆 Dropout(inverted dropout),推理时不需要掩码或缩放,可以直接使用网络。
$$P(k)=\binom{n}{k}p^{k}(1-p)^{n-k},\qquad \mathbb{E}[k]=np$$
n 个神经元中恰好 k 个保留的概率遵循二项分布,保留数的期望值是 np。输出期望值 $\mathbb{E}[\sum m_i a_i / p]=\sum a_i$,与 Dropout 前一致。
$$N_{\text{sub}}=2^{n},\qquad \log_{10}N_{\text{sub}}=n\log_{10}2$$
每个神经元都有「保留/丢弃」两种状态,因此可能的子网络共 $2^{n}$ 种。Dropout 隐式地同时训练这指数级数量的细小网络。