行表示用户,列表示物品。单元格的颜色表示评分(1~5),斜纹表示未评分单元。黄框是预测目标单元,蓝框是选中的邻域用户所在的行。
$$\hat r_{u,i}=\bar r_u+\frac{\sum_{v\in N}\text{sim}(u,v)\,(r_{v,i}-\bar r_v)}{\sum_{v\in N}|\text{sim}(u,v)|}$$
用户 $u$ 对物品 $i$ 的预测评分 $\hat r_{u,i}$。$N$ 是对物品 $i$ 有评分的、与用户 $u$ 相似度最高的 $k$ 个用户的集合,$\bar r_u$ 是用户 $u$ 的平均评分。
$$\text{cos}(u,v)=\frac{\sum_{j} r_{u,j}\,r_{v,j}}{\sqrt{\sum_j r_{u,j}^2}\,\sqrt{\sum_j r_{v,j}^2}}$$
余弦相似度。$j$ 遍历 $u$ 和 $v$ 共同评过的物品。两个评分向量的夹角越小,值越接近 1。
$$\text{pear}(u,v)=\frac{\sum_{j}(r_{u,j}-\bar r_u)(r_{v,j}-\bar r_v)}{\sqrt{\sum_j(r_{u,j}-\bar r_u)^2}\,\sqrt{\sum_j(r_{v,j}-\bar r_v)^2}}$$
皮尔逊相关。在减去各用户平均评分后计算相关性,能够补正评分偏高和偏严格的评分习惯差异。