同心椭圆为损失 f 等高线,中心点为最小值。从起始点 (−9, 4) 伸出的彩色路径为 Adam 更新轨迹,标记在其上反复前进。
$$m_t=\beta_1 m_{t-1}+(1-\beta_1)g_t,\qquad v_t=\beta_2 v_{t-1}+(1-\beta_2)g_t^2$$
一阶矩 m(梯度 g 的指数移动平均)和二阶矩 v(梯度平方的指数移动平均)。β₁、β₂ 为衰减率。
$$\hat m_t=\frac{m_t}{1-\beta_1^t},\ \hat v_t=\frac{v_t}{1-\beta_2^t},\qquad \theta_t=\theta_{t-1}-\frac{\alpha\,\hat m_t}{\sqrt{\hat v_t}+\varepsilon}$$
用偏差校正后的 m̂、v̂ 更新。参数的 √v̂ 除法正是 Adam "自适应"的核心。
$$f(x,y)=\tfrac12\left(a\,x^{2}+b\,y^{2}\right),\quad \nabla f=(a\,x,\;b\,y)$$
本工具的目标函数。条件数为 b/a。狭长谷中 b/a=20,方向间梯度尺度差异大。