每个单元格的颜色表示学习到的价值 V(s)(深蓝→亮蓝价值越高)。箭头表示贪心策略,绿色=目标,红色=陷阱,灰色=墙。黄点是沿贪心策略行走的代理。
$$Q(s,a)\leftarrow Q(s,a)+\alpha\Big[\,r+\gamma\max_{a'}Q(s',a')-Q(s,a)\,\Big]$$
Q学习的更新规则。s:当前状态,a:采取的行动,r:获得的报酬,s':下一状态。方括号内的 $r+\gamma\max_{a'}Q(s',a')-Q(s,a)$ 称为TD误差(时间差分误差),表示当前预测与"观测报酬+次状态最优预测"之间的差距。
$$\pi(s)=\arg\max_{a}Q(s,a), \qquad V(s)=\max_{a}Q(s,a)$$
学习后的贪心策略 π 和状态价值 V。在每个状态选择 Q 值最大的行动就是最优策略,其最大 Q 值就是该状态的价值。
$$a_t=\begin{cases}\text{随机行动} & \text{概率 }\varepsilon\\[2pt]\arg\max_{a}Q(s_t,a) & \text{概率 }1-\varepsilon\end{cases}$$
ε-greedy 的行动选择。概率 ε 下进行探索,概率 1−ε 下进行利用,ε 决定了两者的平衡。