単位円上の矢印が3トークンのキー方向。クエリトークンは強調表示され、クエリから各トークンへの線の太さ・濃さが注目重み w_i を表します。橙色の矢印が value の加重和(出力ベクトル)です。
$$\operatorname{Attention}(Q,K,V)=\operatorname{softmax}\!\left(\frac{QK^{\top}}{\sqrt{d_k}}\right)V$$
スケール付きドット積アテンション。クエリ Q と各キー K のドット積でスコアを作り、√d_k で割って softmax で重みに正規化し、その重みで value V を加重平均する。
$$w_i=\frac{\exp(s_i/\tau)}{\sum_j \exp(s_j/\tau)},\quad s_i=Q\cdot K_i$$
注目重み w_i と生スコア s_i。τ は温度(スケール)。単位ベクトルなら s_i=cos(θ_query−θ_i) となり、向きが近いトークンほど高スコア。
$$H=-\sum_i w_i\ln w_i,\qquad \mathbf{o}=\sum_i w_i\,\mathbf{v}_i$$
注意エントロピー H(0=完全集中、ln3≈1.099=均一)と出力ベクトル o。√d_k スケーリングは softmax を感度の高い範囲に保ち、勾配消失を防ぐ。