论文研究-基于用户引力的协同过滤推荐算法.pdf

所需积分/C币:8 2019-07-22 21:21:00 1.2MB .PDF

针对传统的基于用户的协同过滤推荐算法存在用户兴趣偏好模型过于粗糙和邻居集不够准确等问题,提出了一种新的协同过滤推荐算法,命名为基于用户间引力的协同过滤推荐算法。该算法认为用户使用的社会标签可以反映用户的喜好类型及喜好程度,利用社会标签构建用户喜好物体模型,并计算它们之间的万有引力,把万有引力的大小作为用户相似度的度量,在此基础上获得目标用户的邻居用户和评分预测,把获得预测评分高的若干项目推荐给用户。实验结果说明算法可以获得比其他算法较优的推荐性能。
第11期 王国霞:基亍用户引力的协同过滤推荐算法 3331 定义2喜好物体( preference object)。依据定义1,用户tmic)。如果有g个标签T=(1,t2,…,t)和m个项目I=(i1, 喜欢的项目被定义为喜好物体。喜好物体与项目物体一样,具i,…,in),它们形成一个gxm的矩阵,行为标签,列为项目, 有质量、类别等属性特征 当有y个标签l标注了项日;时,qa=y,即该值为标注该项日 喜好物体是依据用户的喜好构建的虛拟物体,并且是本文的标签的个数,否则qc=0。 重点训究对象。 通过上述定义可以知道用户间的相似度就是用户喜好物 定义3项月颗粒( item particle)。项目物体的组成成分体间的相似度,而炳用广喜好物体包含的项目颗粒相似越多, 被定义为项日颗粒。项目颗粒具有两个重要的属性特征,分别两喜好物体越相似,它们之间的引力越大,所以计算用户相似 是质量和类型。 度就是计算用户的喜好物体间引力。 根据定义2和3,用户u1使用的标签种类和频率可以反映 由式(5)可以看出,计算用户喜好物体的质量与它们之间 用户的兴趣需求,把用户u,使用的标签作为组成其喜好物休的距离是计算它们之问引力的必要条件。 的项日颗粒,那么用户u1的喜好物体模型如式(7)所示,其喜 由定义5可知,计算喜好物休的质量就是计算它包含的项 好物体模型可以反映其兴趣需求,所以该喜好物体模型等同于目颗粒的质量。 UGBCF算法认为项目颗粒在喜好物体中的重 用户的兴趣偏好模型。 要性越高,则该项闬颗粒对引力大小的贡献就越大,所以选择 (7)项目颗粒的重要程度作为项目颗粒的质量。 其中p表示用户u,喜好物体中的第g个项目颗粒 就某一项目颗粒而言,它可能会出现在不同用户的喜好物 定义4颗粒间引力( gravitation between particle)。项日体中,并且在不同用户的喜好物体中的重要性也会不同,有必 颗粒间存在类万有引力的引力作用,并且引力强度遵循万有引要定义同一项目颗粒独立于不同用户的质量,即平均质量 力定律。 m(P)ε UGBCF算法认为在考虑喜好物体相似度时,出现在较 项目颗粒引力和物理学上引力的区别主要有两点:a)遵多喜好物体中的项目颗粒比出现在少量喜好物体中项目颗粒 循同类相吸、不同类相斥的原则,即相同类型的项目颗粒间存的贡献要小,比如项月颗粒p:和p都出现在用户t和n的喜 在引力,而不同类型的颗粒间引力为零;b)颗粒间的引力仅仅好物体中,但颗粒P2出现在1000个用户的喜好物体中,而颗 是数量上的度量,没有方向 粒P出现在10个用户的喜好物体中,在衡量用户v和的相 定义5物体质量( object mas)。项日物体和喜好物体的似性时,颗粒p的贡献要比p大,所以 UGBCF算法定义用户 质量由组成它们的项目颗粒的质量决定。若第i个项目物体逆频率8为项目颗粒的平均质量,如式(9)所示 含有g种项目颗粒,则其质量可用一个质量向量表示为m m(pi)=log( (ma,mna,…,ma),其中mg为第个项目物体的第g个颗粒的 质量,且m≥0。 其中:m(P)为项目颗粒i的平均质量;l为系统中用户的总 定义6物体引力( gravitation between obicet)因项目颗数;为项日颗粒i的总数。 粒间的引力,使得物体间也存在类万有引力的引力,并且物体 用户n1的喜好物体中颗粒g的质量,即项目颗粒g对用 间的引力强度符合叠加原理,即两物体间引力大小由组成它们u1的喜好物体重要程度的计算如式(10)所示。 的项目颗粒间的引力叠加形成。 m(Pg, ,)w(Pg, u, )xm(Pp) (10 若用户a的喜好物体为(P1,Pa,…,mn),用户n的喜好其中m(P,)是项目颗粒g在用户喜好物体中的质量 物体为(Pn,P2,…,P),同类型项日颗粒间引力分别为( (pn,)是重要性参数;m(P2)为项目颗粒g的平均质量。 f,…fn),则用户和u;的喜好物体间的引力如式(6)所示。 式(9)中的重要性参数采用TF×IDF方法来计算1。 TF( erin frey uency),即词频,在本文中用来表示项目颗粒在某 F=/ 项目物体中出现的频率,计算方法如式(11)所示。 其中:F为物体i和j之间的引力,g为两物体含有的项目颗粒 类别数 为了方便后续的计算,针对如图1所小的社会标签系统,其屮;"为用户,在喜好物体屮项目颗粒g的数量,为用户 给出与其相关的矩阵定义。假设系统用户集合为U=(u1,m,在喜好物休中项目颗粒总数。 u2,…,u2),n为用户总数,项目集合为Ⅰ=(l1,2,…,ln),m为 IDF( inverse document frenquency),即逆向文件频率,在本 项目总数,标签集合为T=(1,2,…,4),g为标签总数。 文用来表示项目颗粒的类别区分能力,计算方法如式(12) 定义7用户一项目矩阵 R(user-item matrix)。如果有n所示。 个用户U=(u1,l2,…,l)和m个项目Ⅰ=(i1,i2,…,in),它们 之间因选择关系形成一个n×m的矩阵,矩阵的行为用户,列 IDF= loy(-) (12) 为项目,当用户i选择了项目j并且评分为x时,矩阵中的r=其中n为用户的总数;s为包含物体颗粒g的喜好物体的 ,否则r=0。 总数 定义8用广一标签频率矩阵A( user-tags frequency ma 在计算完物体颗粒的质量后,根据定义5可得用户的喜好 tc)。如果有n个用户U=(u1,u2,…,la)和g个标签T=物体的质量 (t1,42,…,t2),它们形成一个nxg的矩阵,矩阵的行为用户 根据式(5),两喜好物体间的万有引力与它们间的距离成 列为标签,L;用了x个标签z,则a=x,即用户使用该标签个反比,即距离越大,引力就越小。欧几里德距离又叫欧氏距离 数,否则am=0。 通常用来计算两向量间距离,并被认为是这两向量的差距,所 定义9枟签—项目频率矩阵Q(lgs- ilen frequency ma-以 UBGCF算法采用欧氏距高来计算用户喜好物休间的距离, ·3332· 计算机应用研究 笃33卷 计算方法如式(13)所示。 目总数。召回率越高.推荐性能越佳。 d. (an -aui) (13)32实验结果及分析 其中:d为目标用户.和的喜好物体间的距离;a为定义8 本文的测试对象主要选取了传统的基于用户的协同过滤 的矩阵A屮用户u1使用社会标签j的频率。 推荐算法、基于同义标笭分组的协同推荐算法和 UGBCF算法 目标用户41的喜好物体和用户的喜好物体间的万有引把它们的推荐性能进行对比。随机选择10个用户作为目标用 力的计算方法如式(14)所示。 户,测试结果取其平均。 A.、m2·m 实验测试的第一个日标是测试邻居规模对推荐性能的影 响,以确定推荐性能测试的相应数据。本次实验邻居规模选择 其中:F为两物体间的引力强度。 从10到60且步长为10进行」测试,基丁用户的协同过滤摧 两用户喜好物体间的引力强度越大,两用户的喜好物体越荐的用户相似度度量分别考察了余弦相似度(Csim)、修正余 相似,两用户也就越相似。对日标用户u1,把他的喜好物休与弦相似性度(AC-sim)和皮尔逊相似度(P-sim),实验结果如图 系统中其他用户的喜好物体间的引力大小降序排列,排在最前2所示。 面的若干位用户即可作为目标用户u1的邻居集,记为N(u4,)。 2.4推荐的获得 在获得目标用户u1的邻居集后,采用式(4)所示的聚合方 法来对该用户未选择的项目如项目v进行评分预测,如式 湖0.8 平 (15)所小。 Y4/o×(rm-ra C.6 v 共中:rm为日标用户u,对项日1的预测评分 根据预测评分的高低,把获得预测评分最高的若干个项目 102030 邻居集规模 作为推荐结果进行推荐。 图2平均绝对误差的对比 3实验结果及分析 实验测试的第二个日标是比较不同的用户相似度度量方 法对推荐性能的影响。传统的基于用户的协同过滤推荐算法 3.1数据集和评价矩阵 的用户相似性度量依然选取余弦相似度(C-sim)、修正余弦相 似性度(AC-sim)和皮尔逊相似度(P-sm)三和方法。邻居规 本文采用的数据集为 Movielens,该数据集为 GroupLens模选取第个测试的最仹结果即邻居规模为30时的平均绝 小组整理所得,从网站ww. grouplens.org下载所得。该数据 集被大多数推荐系统测试使用,所以用它来测试的算法性能比对误差、精确率和召回率,如图3所示 较具有说服力。当然,本文采用 Movielens数据集中带有标签 的数据集。该数据集中用户数为213,电影数为10197,标签 数为13222。 0.7 UGBCF算法屮采用了平均绝对误差( mean absolute error MAE)作为度量标准。MAE是通过统计预测评分与真实评分 之间绝对距离的均值来实现准确性度量,计算方法如式(16) 所示1,7,1-1 MAE (16) 0基于用户基于用户基于用户基于同义本文 其中:为系统中项日获得评分的个数;c:为系统的预测打分 的协同过的协同过的协同过标签分组 UGBCE 滤推荐之滤推荐之滤推荐之的协同算法 r;为用户的实际打分。MAE的值越小,推荐的预测准确性则 余弦柞似修正余弦皮尔逊过滤 越高;反之,MAE的值越大,推荐的准确性则越小。 柜似 UGBCF算法采用的第二个性能度量标准是精确率-181 图3不同相似性度量下的精确率、召回率 和平均绝对误差的对比 被定义为推荐列表中正确的项目所占比例,如式(17)所示。 从图2可以看出, UGBCF算法的MAE值一直是低于其他 pr (17)算法,也就是说 UGBCE算法的推荐性能要优于其他算法。在 其中:M是推荐列表中用户喜欢的项目数,N为推荐列表中邻居模铰小时,随着邻居规模的增大,MAE的值在降低,算 的项数。显然,准确率越高,算法的推荐性能越好。 法的推荐性能在不断提高。但当邻居规模再进步增大时,推 UGBCF算法采用的第个性能度量标准是召回率),荐性能没有显著提高,反而有所下降。特别地,当邻居规模为 被定义为测试集中被正确推荐的项目比例,如式(18)所示。30时, UGBCF算法的推荐准确度的值最低推荐性能较佳。这 说明邻居用户的规模要选择适中,过多的邻居用户会在评分预 测时引人了过多的噪声评分,从而影响了预测的准确性。从图 其中:Nk是推荐列表中用户喜欢的项目数,N为测试集中项2也可看出 UGBCF算法的推荐性能也是几种算法中最优的。 第11期 王国霞:基亍用户引力的协同过滤推荐算法 3333 从图3可以看出, UGBCF算法的基于万有引力的相似性 framework for performing collaborative filtering[ C]//Proc of the 22nd 度量用于算法后的精确度、召回率和平均绝对误差都要好于基 Annual International ACM SIGiR Conference on Research and deve 于其他几种相似性度量方法的算法,说明了 UGBCF算法具有 lopment in Information Retrieval. 1909 定的优势。 [6 Resnich P, lacovo N, Suchak M, et al. GroupLens: an open archi tecture for collaborative filtering of netnews[C//Proe of ACM Con 4结束语 ference on Computer Supported Cooperative Work. 1994: 175-186 [7 Kim H N, Ji A T, Ha l, et al. Collaborative filtering based on colla 从实验结果可以看出, UGBCF算法具有良好的推荐性能 borative tagging for enhancing the quality of recommendation[J. Ele tronic Commerce Research and Application, 2010, 9(1): 73-83 说明了 UGBCF算法利用社会标笭构建的用户兴趣偏好模型能 [8]Durao F, Dolog P. A personalized tag-based recommendation in social 够较为全面、客观地反映用户真正的兴趣需求。本文提出的基 Web systems C//Proc of Intermational Workshop on Adaption and 于物体间万有引丿的相似度度量方法能够较为准确地获取真 Personalization for Web 2.0. 2009, 22-26 正相似的邻居用户,依此获得的评分预测也就更加准确。但纯9]仟青基于Hap云平台的社交网络服务推荐算法的研究[D] 粹利用标签信息也有其局限性,标签是每个用户根据自己的感 长春:吉林大学,2013 受,自由地对项月进行标注,由十每个人关注点的不同、感觉的[10羊帅,基于自动查沟扩展的专利文档检索方法[D],杭州:浙江 不同以及使用标签的习惯不同等,对同项目进行标注的标签 大学,2013 LIl」邓爱妹,朱杨剪,施伯乐.基于项目评分预测的协同过滤推荐算 也会千差万别,依据标笭提供的信息存在着很大的不足,这就会 法[J].软件学报,2013,14(9):1621-1628 歪出用户的需求,所以下一步工作就是要对标签进行序化处理。[12]韦素云,业宁,吉根林,等,基于项目类别和兴趣度的协同过滤推 另外,在推荐系统屮有大量的项目没有被标注,这导致Q 存算法[冂.南京大学学报:自然科学版,2013,49(2):142-149 矩阵中大量元素为0,也就是存在数据稀疏性问题,这一直是13]赵琴琴,鲁凯,王斌SPCF:一种基于内有的传播式协同过滤推 影响推荐系统效果的重要问题。如何合理利用用户评分矩阵 荐算汝LJ」.计算机学报,2013,36(3):671-676. 和标签矩阵来解决数据稀疏性冋题是研究的車点和难点 14 Zheng Nan, Li Qiudan. A recommender system based on tag and time information for social tagging systems[ J. Expert Systems with Ap 参考文献: plications,2011,38(4):4575-4578 [ 1] Shardanand U, Maes P. Social information filtering: algorithms for 15 Sarwar D, Karypis G, Konstan J, et al. Analysis of recommendation automation"word of mouth"[C//Proc of SIGCHI Conferenee on algorithms for e-tommereeC/Pro of the 2nd ACM Conference ol Human factors in Computing systems. 1295 Electronic Commerce. 2000: 158-167 12 Basu C. Ilirsh II, Cohen W. Recommendation as classification: [16 1 Su Xiaoyuan, Khoshgoftnar T M. A survey of collaborative filtering using social and content-based information in recommendation [C// techniques [ J]. Advances in Artificial Intelligence, 2009, 2009 Proc of the 15 th National/10th Conference on Artificial Intelligence. (12):1-19 Innovative Applications of Artificial Intelligence. Menlo Park: AAA [17]杨兴耀,于炯,吐尔祁·依布拉音,等.融合奇异性和扩散过程 1908:714-720. 的协同这滤模型[J,软件学报,2013,24(8):1868-1884 L3」 Nichols d w. Implicit rating and filtering C」 Proc of the5thDE-[18]梁志文,杨金民,李元旗.基于多项式模型和低风险的贝叶斯垃 LOS Workshop on Filtering and Collaborative Filtering. 1998: 31-36 圾邙件滤算法LJ.中南大学学报:自然科学版,2013,44(7) [4 Billsus D, Warmuth M K. Learning collaborative information filters 2787-2792 []〃/ Proc of the 15th International Conference on machine lear-[19]任磊.推荐系统关健技杺研究[D].上海:华东师范大学,2012. ning.1998:46-53 [如U]许海玲,吴潇,李晓东,等.互联网推荐系统比较硏究[J,软件 [5 Herlocker J L, Korislan J A, Borthers A, et aL. An algorithmic 学报,2009,20(2):350-362 (上接第3314页) sTrategies of Weh personalization[ M]. Berlin: Springer Sciente [3 Chen Xi, Zheng Zibin, Liu Xudong. et al. Personalized Qos-aware Business media. 2007 Web service recommenrlalinn and visualiz at ion[ J]. IEEE Trans on [9 Lorenz F, Ricci F. Case-hased recommender syslems: a unifying Services Computing, 2013, 6(1): 35-47 ew[ C J//Lecture Notes in Computer Science, vol 3169. Berlin [4 Shen Yuanhong, Zhu Jianke, Wany Xinyu, ef ul. Geographie loe 代,2005:89113 tion based network-aware Qos prediction for service composition 10 Felfernig A, Burke R. Constraint-based recommender systems tech [C//Pree of the 20th IEE.F. Inle rnat ional Conference on Web Servi- logies and research issues[C]//Proc of the: 10th Internat ional Co ces. New York: IEEE Press, 2013: 66-74. ference on Electronic Commerce. New York: ACM Press, 2003 [5 Yu Chengyuan, Huang Linpeng. A Web service Qos prediction ap- [11 Koren Y. Collaborative filtering with temporal dynamics[ J]. Com- proach based on time-and location-aware collaborative filtering[J] munications of the ACM, 2010, 53(4): 89-97 Service Oriented Computing and Applications, 2016, 10(2):[12 Balog K. The SIGIR 2008 workshop on future challenges in expertise l35-149 retrieval (CHER J. ACM SIGIR Forum, 2008, 42(2):46-52. [6]φulie, Wang Yan, Orgun M,eral. MCCloud: context- aware and[13]廖辰瀚,郑建国,宋华基于灰色BP神經网络的Web组合服务选 credible cloud service selection based on subjective assessment and 择硏究[冂].情报探索,2012(1):3-7 objective assessment 冂]. IEEE Trans on Services Computing,[14]邓自立卡尔曼滤波与维滤波[M]哈尔滨:哈尔滨工业大学出 2015,8(3):36-383 版社,2001 [7]张莉,张斌,黄利萍,等、基于服务调用特征模式的个性化Web[15] Wang Xiaofeng, Liu ling, Su jinshu.RLM: a general model for trust QS预测方法[冂].计算机研究与发展,2013,5(5):1066-1075 representation and aggregation_J]. IEEE Trans on Services Com [8 Brusilovsky P, Kobsa A, Neidl W. The adaptive Web: methods and puting,2012,5(1):131-14

...展开详情
img

关注 私信 TA的资源

上传资源赚积分,得勋章
相关内容推荐