等高线表示损失f的地形,绿点为最小值。从起点出发的彩色路径是更新轨迹,标记沿其移动。在陡崖地形中不裁剪时,轨迹会突然飞出屏幕。
$$\text{if }\lVert g\rVert\gt \tau:\quad g\leftarrow g\cdot\frac{\tau}{\lVert g\rVert}$$
范数裁剪。当梯度范数‖g‖超过阈值τ时,将整个梯度向量一致地缩小。保留方向(下降方向),仅限制大小为τ。
$$g_i\leftarrow\operatorname{clip}(g_i,\,-\tau,\,+\tau),\qquad \theta\leftarrow\theta-\eta\,g_{\text{clipped}}$$
值裁剪将每个分量g_i独立地切割至±τ。最后用裁剪后的梯度以学习率η更新参数θ。