红点为SGD(直向最大似然解),蓝点为SGLD(布朗噪声探索事后分布轮廓)。薄圈为事后分布p(θ|D)的等高线。改变η和噪声强度观察轨迹变化。
$$\theta_{t+1} = \theta_t - \frac{\eta_t}{2}\sum_{i\in B_t} \nabla L_i(\theta_t) + \sqrt{\eta_t}\,\xi_t,\quad \xi_t \sim \mathcal{N}(0,I)$$
SGLD更新规则(Welling & Teh 2011)。η_t为步长,B_t为小批,ξ_t为布朗噪声。η→0极限下进行精确事后分布采样;有限η时近似伴随偏差。
$$\mathrm{Bias} \;\propto\; \eta\,\sigma_g^2\,\frac{N}{B}, \qquad \mathrm{Var} \;\propto\; \eta, \qquad \tau_{\mathrm{mix}} \approx \frac{1}{\eta}$$
确率偏差与η和梯度方差σ²_g成正比,混合时间τ_mix为η的倒数。布朗噪声以√(2η)尺度占主导,KSD(核Stein差异)也有η相关的上界(Chen-Ding-Carin 2015)。