各セルの色は学習した価値 V(s)(暗い青→明るい青ほど高価値)。矢印は貪欲方策、緑=ゴール、赤=落とし穴、灰=壁。黄色の点が貪欲方策でゴールへ歩くエージェントです。
$$Q(s,a)\leftarrow Q(s,a)+\alpha\Big[\,r+\gamma\max_{a'}Q(s',a')-Q(s,a)\,\Big]$$
Q学習の更新則。s:現在の状態、a:とった行動、r:得た報酬、s':次の状態。角括弧の中身 $r+\gamma\max_{a'}Q(s',a')-Q(s,a)$ はTD誤差(時間差分誤差)と呼ばれ、現在の予測と「観測した報酬+次状態の最良予測」とのズレを表します。
$$\pi(s)=\arg\max_{a}Q(s,a), \qquad V(s)=\max_{a}Q(s,a)$$
学習後の貪欲方策 π と状態価値 V。各状態で Q が最大の行動を選び続けるのが最適方策、その最大 Q 値がその状態の価値です。
$$a_t=\begin{cases}\text{ランダムな行動} & \text{確率 }\varepsilon\\[2pt]\arg\max_{a}Q(s_t,a) & \text{確率 }1-\varepsilon\end{cases}$$
ε-greedy による行動選択。確率 ε で探索、確率 1−ε で活用を行い、両者のバランスを ε が決めます。