当epoch从0→T推进时,学习率逐渐降低,球的步幅也随之缩小。前期大跨步弹跳,后期在谷底小心谨慎地收敛。上部曲线显示学习率推移。
$$\text{步长: }\eta=\eta_0\,\gamma^{\lfloor t/s\rfloor}\qquad \text{指数: }\eta=\eta_0\,e^{-kt}$$
步长衰减:每s个epoch将学习率乘以γ,形成阶梯状。指数衰减:用衰减系数k连续平滑地减小学习率。t:当前epoch,η₀:初始学习率。
$$\text{余弦: }\eta=\eta_{min}+\tfrac{1}{2}(\eta_0-\eta_{min})\!\left(1+\cos\frac{\pi t}{T}\right)$$
余弦退火:按半周期余弦曲线从η₀平滑下降到最小值,后期逐渐接近最小值。T:总epoch数。所有计划都体现了"前期速度"与"后期精度"的平衡。