蓝色曲线为奖励地形 R(a) = −(a−a*)²,红色竖线为最优行动 a*。黄色的钟形曲线为高斯策略,随着学习进行会滑向最优行动。
$$\nabla_\theta J=\mathbb{E}\big[\nabla_\theta\log\pi_\theta(a)\,(R-b)\big]$$
策略梯度定理。期望奖励 J 的梯度由"行动 a 的对数概率梯度(分数函数)"乘以"奖励 R 减去基线 b"的期望值表示。
$$\nabla_\mu\log\pi=\frac{a-\mu}{\sigma^{2}}$$
平均 μ、标准偏差 σ 的高斯策略的分数函数。如果取比平均更大的行动获得好报酬,则会让 μ 增加。
$$\mu \leftarrow \mu + \alpha\,\widehat{\nabla_\mu J},\qquad b=\overline{R}$$
学习率 α 的梯度上升更新式。减去基线 b(批平均奖励 R̄)不改变梯度期望值,只降低估计方差。