同心の楕円が損失 f の等高線、中央の点が最小値です。スタート地点 (−9, 4) から伸びる色付きの経路が更新の軌跡で、マーカーがその上を繰り返し進みます。
$$\text{GD: }\theta\leftarrow\theta-\eta\nabla f(\theta)$$
通常の勾配降下法。現在地 θ で勾配 ∇f を計算し、その逆向きに学習率 η だけ進む。
$$\text{Momentum: }v\leftarrow\gamma v-\eta\nabla f(\theta),\quad \theta\leftarrow\theta+v$$
モメンタム法。速度 v に過去の更新を γ の割合で残し、勾配で加速する。γ:モメンタム係数、η:学習率。
$$f(x,y)=\tfrac12\left(a\,x^{2}+b\,y^{2}\right),\quad \nabla f=(a\,x,\;b\,y)$$
本ツールの目的関数。Nesterov加速勾配は勾配を現在地ではなく先読み点 θ+γv で評価する点だけが異なる。条件数は b/a。