1
本课题得到国家自然科学基金“基于知识网络的电子商务智能推荐系统研究”(70572079)资助
- 1 -
基于模糊聚类的可扩展的协同过滤算法研究
1
王惠敏 聂规划
武汉理工大学经济学院电子商务系,武汉(430070)
Email: huiminwangbj@126.com
摘要:本文主要分析了传统协同过滤算法的不足,提出了一种新的电子商务推荐算法。该
算法将模糊聚类技术用于划分相似的项目和相似的用户,在项目的划分中采用基于项目的
协同过滤算法计算出用户对未评分项目的初始评分,在此基础上在用户的划分中采用基于
用户的协同过滤算法完成预测评分。实验结果表明,该算法改善了协同过滤算法的数据稀
疏性和可扩展性问题,提高了推荐系统的推荐质量。
关键词:电子商务;协同过滤;模糊聚类;推荐系统
中图分类号:TP391
1. 引言
电子商务推荐系统是基于可得到的信息资源向用户推荐适合其需要的信息或商品的系
统
[1]
。电子商务推荐技术是电子商务推荐系统中最核心、最关键的技术,很大程度上决定
了推荐系统性能的优劣。目前电子商务推荐技术主要有基于内容的推荐技术和协同过滤推
荐技术
[2]
。协同过滤作为目前最成功的推荐算法被广泛的应用,其目标是根据具有相似偏
好的用户的观点向目标用户推荐新的商品。协同过滤推荐算法基本上可以分为 Memory-
based 协同过滤推荐算法和 Model-based 协同过滤推荐算法两类
[3]
。Memory-based 协同过滤
算法利用整个用户—项目评分数据集来产生推荐,系统利用统计技术搜寻一组用户,称为
邻居,他们与目标用户有一致的历史偏好。Memory-based 协同过滤算法主要有基于用户的
协同过滤推荐算法和基于项目的协同过滤推荐算法。基于用户的协同过滤根据评分相似的
最近邻居的评分数据向目标用户产生推荐。基于用户的协同过滤虽然当给出足够清楚的偏
好信息时,它通常表现出良好的性能,但随着站点结构,内容的复杂度和用户人数的不断
增加,一些缺点逐渐暴露出来,主要存在稀疏性和可扩展性两个问题。通常在电子商务网
站中,用户购买或评分的商品相对于总商品数量仅占有限的百分比,为总数量的 1%以
下,这导致用户-项目评分数据集稀疏。在这种数据量大而评分数据又极端稀疏的情况
下,一方面难以成功的定位邻居用户集,影响推荐精度;另一方面在整个用户空间上计算
相似用户群的过程不可避免地成为了算法的瓶颈。并且输入数据通常包含大量的用户和商
品,致使系统扩展困难,推荐质量下降。针对基于用户的协同过滤推荐算法面临的问题,
研究者们提出了基于项目的协同过滤推荐算法
[3]
。基于项目的协同过滤推荐依赖于项目的
相信似度来决定推荐。算法的不足之处是只能推荐那些和用户当前购买的商品相类似的商
品,不能挖掘用户的潜在兴趣,作出“跨类型”的推荐。
聚类分析是数据处理的一种重要手段和工具,通过把样本按照某种相似性准则划分成
各种不同的类别,从而发现人们感兴趣的内容。聚类技术已被广泛地大数据集的处理,研
究者们也将其应用于协同过滤可扩展性问题的改善。张海燕等运用模糊聚类技术将项目的
属性特性的相似性与基于项目的协同过滤推荐算法相融合,以改善推荐质量
[4]
。Xue G. R.采
http://www.paper.edu.cn