计算机科学
2005Vo
l.
32NQ.
10
基于用户兴趣子类的协作推荐算法关)
朱征宇张小林熊茜谢祈鸿
(重庆大学计算机学院
重庆
400044)
摘
要
随着电子商务规模的进一步扩大,用户数目和文档资源急剧增加,导致用户数据的极端稀疏性。传统协作推
荐算法都无法很好地解决数据稀疏性问题。本文提出一种基于兴趣子类的协作推荐算法,通过子类处理思想的引入,
使得某两个用户即使整体不相似而因为"局部点"的相似产生有用的推荐,"最近邻居"的发现变得更容易更准确。实
验结果表明,该算法能有效地解决用户数据的极端稀疏问题,在同等条件下,相对于传统协作推荐算法川有更好的推
荐质量。
关键词
兴趣子类,兴趣分类树,协作推荐,数据稀疏性,平均绝对误差
An
AIgorithm
of
Collaborative
Recommendation
ßased
on
User'
s
In
terest
Su
b-
Class
ZHU
Zheng-Yu
ZHANG
Xia
o-
Lin
XIONG
Qian
XIE
Qi-Hong
(Co
llege
of
Co
mputer, Chongqing University, Chongqing 400044)
Abstract
With
the
development
of
E-commerce,
the
magnitudes of
users
and
Web
documents
grow
rapidly, and result
in
the
extreme
data sparseness of users.
The
traditional algorithms of collaborative recommendation
can'
t solve
the
problem
very
wel
l.
To
address this issue, a novel
algorithm
of collaborative recommendation based
on
users'
interest
su
b-
classes is proposed.
Ba
sed
on
the
similarity
of
the
interest
su
b-
classes among
the
users
,
the
new
method makes
it
more
easy
and accurate to find the similar neighbors of a
user
, even if
their
interests
are
very
differ
巳
nt
as
a whole, and
can
provide
more
efficient inforrnation recommendation.
Our
experiment
shows
that
this method can efficiently solve
the
problem
of
the
extreme
data
sparseness
of
users
, and
can
provide
better
result
on
inforrnation recommendation
than
the
traditional algorithm of collaborative recommendation
[D].
Ke
归
lords
lnterest
su
b-
class,
Interest
category
tree
,
Co
llaborative recommendation,
Data
sparseness, Mean
Absolute
Error
(MAE)
相关工作
在当今的个性化推荐系统中,基于最近邻居的协作过滤
技术由于具有发现新信息的能力,是应用最为成功的推荐技
术之一阳。它通过分析用户兴趣,在用户群中找到当前用户
的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形
成系统对该用户对此信息喜好程度的预测。传统的基于最近
邻居的协作推荐方法,所使用的用户信息数据集通常可表示
为一个
mXn
的用户-项评估矩阵
R=(rij)mXn
,
m
是用户数
,
n
是项数,句是第
Z
个用户对第
1
个项的评分。评估值与项的
内容有关,如果项是电子商务中的货品,则表示用户订购与
否,例如
1
表示订购,
0
表示没有订购;如果项是
Web
文档,则
表示浏览与否,用户对它的兴趣度有多高。协作推荐过程可
分为
3
个阶段:数据表述;发现最近邻居;产生推荐数据集。
随着电子商务规模的进一步扩大,用户数目和文档资源
急剧增加,导致用户数据的极端稀疏性,最近邻居不易获得。
而准确发现目标用户的最近邻居是协作推荐系统成功的关
键。针对此问题,许多文献都提出了不同的解决办法。
文
[1J
提出了基于最近邻用户的协作过滤方法,但在实践
过程中其稀疏性和扩展性的缺点也逐渐暴露出来。文
[9J
提
出了基于项目预测评分的协作过滤推荐算法,每次预测都要
计算项目的相似性,其计算复杂性,随着用户数目和项目数的
增加系统的性能和扩展性仍然较差。
文
[8J
针对数据稀疏性问题,提出通过奇异值分解
(SV
D)
减少项目空间的维数,使得用户在降维后的项目空间上对每
一个项目均有评分,实验结果表明,这种方法可以有效地解决
同义词
(synonymy)
问题,显著地提高推荐系统的伸缩能力。
但降维会导致信息损失,降维效果与数据集密切相关,在项目
空间维数很高的情况下,降维的效果难以保证。而且,在以内
容为基础的网页推荐过程中,忽视了网页内容之间潜在的关
系,相似邻居发现并不准确,不能精确地产生推荐集。
在早先的一些协作过滤系统中,都有一个共同点:将用户
当作一个"整体"来寻找其相似用户群,没有考虑到将用户兴
趣分类。实际上,每个人的兴趣是很广泛的,所以很难找到与
其完全相似的用户,实验也表明,某人对一篇文档感兴趣与该
文档所属类别有一种潜在的关系,所以我们应该尽量使文档
主题类别与用户兴趣类别相一致。因此,将子类处理思想应
用于协作推荐应该是可行的。
原则上讲,将基于子类的处理思想应用于用户群中用户
兴趣的相似度度量,应该优于早先基于整体的处理思想。例
如,用户甲喜欢[体育
J[
娱乐
J[
文教
J
[I
TJ
等多方面的新闻,用
户乙则喜欢[体育正社会
J[
财经]方面的新闻,如果[体育]新
闻(或相应特征词的权重在用户的所有特征词中)所占比重又
较小,就可能使此两用户相似度较低。但采用基于兴趣子类
的方法,只对[体育]子类进行相似度计算,两用户可能因为
"局部点"相似而成为在某一子类上的最近邻,这种"按照子类
划分的相似用户群、并进行子类信息协作推荐"的处理方法,
在多数情形应更加合理。
本文提出一种基于兴趣子类协作过滤的推荐算法。它以
网页内容为基础,首先对用户的兴趣分类,然后以兴趣子类为
势〉基金项目.重庆大学骨干教师资助计划项目
(2003A33)
。朱征字
副教授,研究方向为
Web
智能检索、电子商务、数据库技术;张小林
硕士
研究生,研究方向为电子商务、
Web
智能检索;熊
茜硕士研究生,研究方向为
Web
服务;谢祈鸿硕士研究生,研究方向为电子商务。
• 176 •