1 引言
大数据时代海量信息资源的广泛分散为可靠信息的获取带来了消极影响。
为了解决信息过载问题并提升用户体验推荐系统应运而生并引起国内外学界和
工业界的广泛关注
。目前推荐系统已成功应用于多个领域其中电影推荐是
推荐系统较为典型的领域之一。美国流媒体巨头网飞公司于 年创办网飞大
奖赛鼓励世界各地的学者研究推荐算法以提高电影推荐系统的推荐效果。近年
的主流推荐算法仍使用“用户项目”评分矩阵信息并衍生出以稀疏矩阵分解为代
表的多种推荐策略。总之挖掘海量电影背后的用户偏好信息为用户提供高质量
的个性化服务是影视平台需要解决的主要问题。
由于本文主要从数据源和数据处理方法两个角度进行推荐策略创新 故也从
这两方面对本领域的相关文献进行综述。从数据源的角度 早期推荐算法主要采
用单一数据源预测用户偏好。例如 协同过滤算法的数据来源集中于“用户 项目”
评分矩阵一般从用户或项目的角度进行分析
。基于内容的推荐方法则利用用户
和项目特征数据通过计算相似的项目为用户进行推荐
。由于单一的数据源包含
的信息量有限其推荐结果往往不够精确因此学者们借助多种类型的附加信息更
深入地挖掘用户偏好
是挖掘用户兴趣的重要数据来
源。此外时间、空间、属性信息
利用用户年
龄、性别、工作等个人信息对用户进行聚类分析并针对不同类型的用户实现相
似推荐 等
提取电影的类别属性采用 指标进行项目相似度的度
量以缓解数据稀疏问题 等
则结合项目的多元属性如导演、类别、国家等
采用项目各属性的耦合相似度值比较项目间的差异该方法虽然考虑了项目属性
信息但忽略了用户的属性偏好关系。
从数据处理方法的角度为解决数据稀疏和大规模数据处理等问题通常需要
对数据进行降维操作。常用的数据降维处理方法包括聚类和矩阵分解(
!"#"!)
。聚类的目标是使簇内的对象有较高的相似性不同簇之间
的对象有较大的差异。K$ 是最常用的聚类方法之一
。在推荐系统应用
中按照聚类对象的不同可以从用户和项目两个中心进行聚类方法的设计
。利
用聚类技术可实现对用户或项目降维使多样化的用户和项目有相应的类别归属。
通过与协同过滤算法结合可以缩小目标用户或项目的最近邻搜索范围有效解决
推荐算法面临的效率、稀疏性和可拓展性等问题。%& 等
基于用户的历
史评分和用户间的社交信息数据对用户进行聚类形成用户的初始邻居集并通过
信任模型对其进行迭代最后采用协同过滤为用户形成推荐。!'&( 等
提出一
种以项目为中心的聚类方法采用加权累计项目评分提高了推荐准确率并降低运
算时间。矩阵分解模型假设项目或用户的特征可以由低维空间中的一些潜在因
素表示在数据降维和缓解数据稀疏性等问题上取得了较好的效果
。基于矩阵
分解的推荐算法通过用户和项目向量之间的内积预测用户评分主流的矩阵分解
算法包括奇异值分解
等。
已有的协同过滤算法研究的数据分析单元主要聚焦于用户 项目评分矩阵也
有部分研究提出了属性数据的附加作用。在基础数据源层面本文认为项目层面
的评分不足以准确反映用户的偏好细节需要深入到属性维度以挖掘基于项目属
性的用户偏好在项目属性层面电影推荐场景中大多数研究关注的属性包括用户
年龄、职业、性别、情境等信息然而少有研究关注电影的演员属性本文认为演
员属于电影的重要特征将影响用户的电影偏好。相关研究表明演员阵容对电影