单位圆上的箭头代表3个令牌的键方向。查询令牌被强调显示,从查询到各令牌的线条粗细和浓度表示注意力权重w_i。橙色箭头是值的加权和(输出向量)。
$$\operatorname{Attention}(Q,K,V)=\operatorname{softmax}\!\left(\frac{QK^{\top}}{\sqrt{d_k}}\right)V$$
缩放点积注意力。用查询Q和各键K的点积生成分数,除以√d_k后用softmax归一化权重,再用权重对值V进行加权平均。
$$w_i=\frac{\exp(s_i/\tau)}{\sum_j \exp(s_j/\tau)},\quad s_i=Q\cdot K_i$$
注意力权重w_i与原始分数s_i。τ是温度(缩放)。单位向量情况下s_i=cos(θ_query−θ_i),方向接近的令牌得分更高。
$$H=-\sum_i w_i\ln w_i,\qquad \mathbf{o}=\sum_i w_i\,\mathbf{v}_i$$
注意力熵H(0=完全集中,ln3≈1.099=均匀)和输出向量o。√d_k缩放保持softmax在高灵敏度范围,防止梯度消失。