摘要:进入大数据时代以来,个性化推荐算法一直备受关注,不仅解决了信息
过载的问题,而且从海量数据中挖掘很多有用的信息。当下,用不同的方法对用
户的兴趣进行挖掘,通过对当前个性化推荐算法中用户兴趣偏好的文献进行归类
分析,并提出其不足之处与改进的方向,为后续个性化推荐算法的研究提供理论
参考。
个性化推荐,就是要根据用户的兴趣偏好向其推荐感兴趣的产品,因此挖掘用户的兴趣
偏好是推荐算法的关键。传统协同过滤推荐算法的核心思想通过计算用户评分数据间的相似
性作为评判用户兴趣相似的标准,主要采用Pearson 相关系数、余弦相似度或改进的余弦相
似度等度量标准,但仅仅依靠评分间的相似性不足以充分发现用户的兴趣所在。例如贾冬艳
等人[1]在传统协同过滤推荐的基础上将用户间评分相似度的均值设定为阈值,将大于阈值的
评分用户作为目标用户的兴趣相似用户。该方法解决了传统KNN 算法的不足,虽然较传统方
法提高了兴趣相似用户推荐的精度,但同样未真正挖掘用户的兴趣。
分析现有的研究,主要通过以下两方面来表现用户兴趣偏好:一是基于项目属性聚类确
定用户的兴趣类别;二是通过 LDA 主题模型,随着 LDA 模型在文本挖掘研究的兴起,该模型
也被延伸到个性化推荐领域,挖掘用户的兴趣偏好,改善推荐算法的精度。
1 聚类之兴趣挖掘
聚类分析是机器学习和多元统计分析中一种典型的分析方法,较为常用的实现算法有K-
means 算法、模糊 C 均值聚类算法(fuzzy C-means)等。在推荐系统中用聚类算法来获得用
户的兴趣,主要是通过对项目属性聚类来实现。张莉等人[2]在基于用户聚类的协同过滤推荐
的基础上,根据项目属性进行聚类确定用户的兴趣类别,并以此计算用户的活跃度,但因为
算法涉及到对用户兴趣的评分项目的统计,因此增加了算法的时间复杂性,虽然不影响推荐
的实时更新,但更新复杂。段元波等人[3]的研究中根据项目所属项目类别中的 0-1 矩阵,得
到所有类别下用户评分项目的比例及各评分级别的比例,由占比高的评分级别作为用户对该
项目类别的偏好,从用户评分偏置和用户项目类型偏好综合建立用户的兴趣模型。谭晋秀等
人[4]依据 K 均值(K-means)算法发现用户关注的话题。采用 K-means 算法进行聚类中,K 值
的选择需要事先给定,同时初始聚类中心的选择会对聚类的结果产生影响,虽然这些问题可
以通过多次实验进行优化来解决,但随着项目及其属性信息的更新需要不断的重复上述优化
过程,会使得算法的时间复杂度不断增加,因此,在大数据背景下,通过该算法进行用户兴
趣选择的实用性不强。
除了采用 K-means 算法进行兴趣提取,也有的研究采用模糊C 均值聚类算法。郭弘毅等
人[5]用重叠社区发现算法将用户集合根据其社交网络结构进行划分,于同一社区内的用户存
在相同的特性或相互影响,在此基础上采用模糊C 均值聚类算法,利用用户的行为记录以及
项目所属的类别,寻找与目标用户在泛化层面的兴趣偏好相似的用户集合,提出基于兴趣偏
好的模糊聚类算法。Katarya 和 Verma [6]提出 FCM 算法,其是在 K-means 算法的基础上加以
改进得到的,虽然性能更好,但在算法的初期同样需要设定一些参数,并且若参数的初始化
选取不合适,也会直接影响聚类的效果。同时当数据集较大时,其实时性不能得到保证。
现如今是大数据的时代,面对海量数据,通过聚类分析获取用户的兴趣偏好其实时性更
是不能得到保障。
LDA(Latent Dirichlet Allocation)模型是于 2003 年由 Blei 等人[7]提出的一种三层贝叶斯
概率模型,也叫做隐含狄利克雷分布,该模型能够很好的挖掘文本的主题分布。最近,LDA
模型也被运用到推荐系统中以挖掘用户的潜在兴趣偏好。
在现有算法中主要从两个角度进行研究。其一是用LDA 模型来评估文本以获得推荐系统
的额外信息。文献 8 中首次利用 LDA 模型从产品评论中挖掘用户的兴趣,然后结合矩阵分解
模型来预测未知的项目评分。J & S 等人[9]利用 LDA 模型从文本描述中推断项目的潜在特性,