同心椭圆是损失 f 的等高线,中央点是最小值。从起点 (−9, 4) 伸出的彩色路径是更新轨迹,标记在其上循环进行。
$$\text{梯度下降: }\theta\leftarrow\theta-\eta\nabla f(\theta)$$
普通梯度下降法。在当前位置 θ 计算梯度 ∇f,沿其反向走学习率 η 的距离。
$$\text{动量法: }v\leftarrow\gamma v-\eta\nabla f(\theta),\quad \theta\leftarrow\theta+v$$
动量法。速度 v 以 γ 的比例保留过去更新,梯度加速。γ:动量系数,η:学习率。
$$f(x,y)=\tfrac12\left(a\,x^{2}+b\,y^{2}\right),\quad \nabla f=(a\,x,\;b\,y)$$
本工具的目标函数。Nesterov加速梯度的唯一区别是在先读点 θ+γv 而非当前位置计算梯度。条件数为 b/a。