青い曲線が報酬地形 R(a) = −(a−a*)²、赤い縦線が最適行動 a*。黄色のベル曲線がガウス方策で、学習が進むと最適行動へ滑り寄ります。
$$\nabla_\theta J=\mathbb{E}\big[\nabla_\theta\log\pi_\theta(a)\,(R-b)\big]$$
方策勾配定理。期待報酬 J の勾配は、行動 a の対数確率の勾配(スコア関数)に、報酬 R からベースライン b を引いた重みを掛けた期待値で表される。
$$\nabla_\mu\log\pi=\frac{a-\mu}{\sigma^{2}}$$
平均 μ・標準偏差 σ のガウス方策のスコア関数。平均より大きい行動が良い報酬を生めば μ が上がる方向に働く。
$$\mu \leftarrow \mu + \alpha\,\widehat{\nabla_\mu J},\qquad b=\overline{R}$$
学習率 α による勾配上昇の更新式。ベースライン b(バッチ平均報酬 R̄)を引いても勾配の期待値は変わらず、推定の分散だけが下がる。