同心の楕円が損失 f の等高線、中央の点が最小値です。スタート地点 (−9, 4) から伸びる色付きの経路が Adam の更新軌跡で、マーカーがその上を繰り返し進みます。
$$m_t=\beta_1 m_{t-1}+(1-\beta_1)g_t,\qquad v_t=\beta_2 v_{t-1}+(1-\beta_2)g_t^2$$
一次モーメント m(勾配 g の指数移動平均)と二次モーメント v(勾配2乗の指数移動平均)。β₁・β₂ は減衰率。
$$\hat m_t=\frac{m_t}{1-\beta_1^t},\ \hat v_t=\frac{v_t}{1-\beta_2^t},\qquad \theta_t=\theta_{t-1}-\frac{\alpha\,\hat m_t}{\sqrt{\hat v_t}+\varepsilon}$$
バイアス補正後の m̂・v̂ で更新する。パラメータごとの √v̂ による割り算こそが、Adam を「適応的」にしている核心部分。
$$f(x,y)=\tfrac12\left(a\,x^{2}+b\,y^{2}\right),\quad \nabla f=(a\,x,\;b\,y)$$
本ツールの目的関数。条件数は b/a。細長い谷では b/a=20 で、方向ごとに勾配スケールが大きく異なる。