基于目标用户近邻修正的协同过滤算法是一种改进的协同过滤技术,它针对传统的基于用户的协同过滤算法中存在的一些问题,如用户评分的倾向性(tendency)和评分矩阵的稀疏性(sparsity)所引起的最近邻用户(nearest neighbors)的不准确和不可靠性进行了改进。以下是对该算法的知识点详细介绍。
协同过滤算法分为两类:基于用户的(User-based)和基于模型的(Model-based)。基于用户的协同过滤通过寻找与目标用户(target user)兴趣相近的其他用户,利用这些邻居用户(neighbors)的偏好来预测目标用户的喜好。这种方法的成功在很大程度上依赖于正确找到相似用户的能力。
然而,在实际应用中,用户评分的倾向性问题以及评分矩阵的稀疏性问题使得传统的基于用户的协同过滤算法难以找到准确可靠的邻居用户。评分的倾向性指的是用户的评分可能总体偏高或偏低,这会影响用户之间的相似度计算。而评分矩阵的稀疏性是指大部分用户仅对少部分项目(item)做出了评价,导致可用于计算相似度的评分数据非常有限。
针对上述问题,研究者提出了一个有效的算法,通过修正目标用户最近邻的选择来提高推荐系统的质量。具体步骤如下:
1. 定义用户群中积极和消极的评分。积极评分是指用户给出的高于平均分的评分,而消极评分则指低于平均分的评分。通过对用户群中评分倾向的定义,可以从同一评分倾向的用户群中选取目标用户的最近邻。
2. 选择与目标用户具有较少共同评分项目但相似度高的邻居用户。通过对这些邻居用户进行修正,能够提高邻居集的质量。
3. 使用余弦相似度(Cosine Similarity)和皮尔逊相关系数(Pearson Correlation Coefficient,PCC)等方法来计算用户间的相似度。
余弦相似度通过计算两个用户评分向量的夹角余弦值来衡量用户间在项目评分上的相似程度。皮尔逊相关系数则是衡量两个变量之间线性相关程度的一种方法,在协同过滤中通常用来衡量两个用户评分模式的相似性。
4. 通过实验验证,修正后的邻居选择算法能够有效地改进推荐质量。
这项研究中还提到了一些特定的公式,例如通过修正目标用户邻居的相似度计算公式:
sim(Ua, Ub) = 40828 * ∑k∈cab (Rak - Ra)(Rbk - Rb) / √(∑k∈cab (Rak - Ra)^2 * ∑k∈cab (Rbk - Rb)^2)
以及余弦相似度的计算公式:
COS.sim(Ua, Ub) = 2∑k∈cab RakRbk / (∑a∈Ua R^2 * ∑b∈Ub R^2)
文章中的图表展示了实验过程和结果。如图1展示了用户的分布,而图2展示了经过修改后的用户分布。表1则是用户-项目评分矩阵的表示,表2给出了实际的用户-项目评分数据。
这些知识点涵盖了协同过滤算法的改进方法、评价体系的建立以及实验结果的分析等多个方面,对于从事推荐系统研究和开发的专业人士具有参考价值。通过这些理论和实验分析,可以更好地理解协同过滤中的最近邻用户选择问题,以及如何通过改进算法提高推荐的准确性。