论文研究-一种结合主题模型的推荐算法.pdf

所需积分/C币:13 2019-07-22 23:29:40 1.29MB .PDF
11
收藏 收藏
举报

针对传统协同过滤推荐算法存在的冷启动、数据稀疏以及相似度度量的准确性问题,基于LDA主题模型对文本隐式主题挖掘的有效性和KL散度在主题分布相似性度量的准确性,提出了结合LDA主题模型的矩阵分解推荐算法。首先,利用改进的LDA算法输出项目—主题分布,并用困惑度作为主题数设置的修正函数;然后分别基于余弦相似度和KL散度计算得到项目相似度矩阵,将得到的相似度矩阵结合原评分训练集输出预评分,再将预评分填充到训练集;最后将训练集输入ALS矩阵分解算法得到推荐结果。通过MovieLens数据集的实验结果表明,该算法在不同隐式参数设定下均能得到比ALS推荐算法以及更小的预测误差,并且最优预测误差小于传统推荐算法。该实验说明了通过集成LDA主题模型的ALS算法效果要优于其他推荐算法。
1640· 计算机应用研究 第36卷 采样。 题分布对电影的区分效果,本文引入了困惑度3,表示对不同 物品间的区分能力,困惑度越小其区分效果越好。困惑度由式 (3)所示,其中W为语料集,tn为语料中的单词,N。为单词 数量。 olexity ( w) k∈1A ∈[1Nn m∈1,4 umP过滤 图1LDA图模型 合并 采样的方法包括变分EⅥ算法、Gibs抽样法和最大似然 盟最 估计法。本文采用 Gibbs抽样法采样主题分布,有关细节可杳 看文献11]。 u result LDA(topic=p 2本文改进算法 图2项目文件处理 ALS矩阵分解推荐算法虽然优于基于邻域的协同过滤算 在不同的主题数前提下得到多个具有不同困惑度的主题 法,但是依然存在数据稀疏以及冷片动问题,这些问题对实际分布,设置最小困惑度对应主题数进行再一次LDA算法,得到 推荐准确率有很大影响。本文提出了一种结合LDA主题模型 的As算汏,即LDA-IT-ALS算法。该算法利用LDA模型刈项 的主题分布矩阵如下所示,其中p(1≤i≤m,1≤j≤n)为第讠 个项目的第j个主题的条件概率 日信息进行建模,将项日文件中的每一行(单个项日的描述信 息)转换为主题的分布,不仅对文裆进行了降维而且挖掘出了 不同词可能包含的相同或相近的主题信息。在这些信息的基 础上进行的项目相似度的计算更符合人的常规思维方式。主 题分布信息经过本文方法处理后变成项目相似度矩阵,然后结 合原评分矩阵产生预评分填充到原评分矩阵中形成新的输入21.2项目相似度類阵求解 集输入ALS算法。 在主题分布矩阵基础上进行项目相似度矩阵求解,主要过 程为两两之间计算相似度 2.1算法过程描述 a)相似度选择。常见的相似度的度量方式有余弦相似 本文所用到的数据集为美国 GruuplLens提供的 Movielens度、 Jaccard.氏距离等,最为常用的为余弦相似度。本文对余 数据集2。算法主要包括项目文件处理及主题分布的计算、项弦相似度和文献[]:到的KL散度进行对比。 目相似度矩阵求解、预评分求解及填充、AS矩阵分解及推荐。 余弦相似度是通过计算两个向量的夹角余弦值来评估它 2.1.1文件处理及主题分部计算 们的相似度,计算公式如式(4)所示,其中A1代表向量A在维 木节用到了uiem文件以及u. genre文件。文件u.iem度i上的值,B代表向量B在维度t上的值,为维度。 每行描述一部电影,不同的措述项(电影属性)以单竖线分割 KL散度又叫做相对熵或者互熵、交叉熵,用于度量两个随 第1项为索引号,第2项为电影名、第3项为上映日期,第4项 机变量的距离,计算公式如式(5)所示,其中p(x)和q(x)是关 为空,第5项为址信息,第6-24项为以位图描述的电影类于变量x耿值的概率分布函数。由于KL散度是两个概率分 型(如果某部电影居于某个类型,则对应的位图为1,否则为布P和Q的非对称性的度量,一般采用(D(Pq)+D(q 0)。文件u. genre描述电影类型炇索引号,每行描述一个电影 类型,共19行。 p))/2度量两个分布间的距离。在此需要将距离转换为相似 本步骤又可分为两个子过程,处理流程如图2所示 度,并且归一化。通常用 sigmoid函数进行转换,公式如式(6) a)电影描述文件预处理。u.itm文件不能直接作为题所示,其中D为(D(P‖q)+∥(qp))/2。 ∑1(A;×B;) 分布计算模块的输入文件。需要将u.iem的位图信息转换为 ∨2142 ∑"B 电影类型信息,提取电影名称及上映日期,并过滤掉干扰信息 经过处理后的文件为u.wor,文件中每一行表示一部电影的 D(pl)=2p(a) log e(a) 文本信息,例如电影 Toy Story的信息为( Toy Story anl995Ani n’ s Comedy) S(x) b)主题分布计算。将u.word转换成主题分布文件,用到 b)相似度后处理。将图3中的主题分布矩阵分别根据a) 了LDA算法。由于Bli提出LDA算法的初衷是利用隐式主屮的两种方式逐行两两计算相似度,得到相似度矩阵。为方便 题对文本进行分类,源码在读文件模块读入对象是以一个项日后续流程,生成的相似度矩阵实际上以三元组形式存在,形如 对应一个文件的形式存在,而步骤a)屮得到的u.word文件约( iteml,item2,sim)。 1600行文本,其中一行代表一部电影。为满足后续实验要求 后续求解预评分根据邻居项目已存在的评分来估计空白 以及辯免大量文件读取时造成频繁的磁盘读操作而降低效率,处的评分,因此相似度矩阵需要以固定阈值过滤掉相似度小的 本文对Blei的读模块进行了改进,将逐文件处理变为了逐行项。本文按照文献[16的方法取阈值为0.9,得到的相似度矩 处理。 阵后续称为高相似度矩阵。 在完成读模块的改写后,需要对u.word进行联合分布的2.1.3预评分求解及填充 采样以及主题分布的输出,具体过程参考1.2.2节。为提高主 结合原评分矩阵以及高相似度矩阵预测某些缺失评分项 第6期 曹占伟,等:一种结合主题模型的推荐算法 1641 原评分矩阵文件为u.data,其评分是以三元组形式存在,形如3.1与ALS算法对比实验 (user;imn,rle),本文主要根据当前项目和邻居项目间的相似3.1.1LDA主题数设置 性集合和用户对项目结合的评分预测缺失项,主要过程如算法 为了能保证LDA算法的处理效果,首先需要对主题数的 所示。 设詈进行调整,以困惑度作为卞题数的修正参数。 算法2预评分求解 首先将主题数设置在5~50,步长为5,困惑度与主题数的 a)定义 preMark Map,其数据结构为 关系如图3所示, top Num代表主题数, perplexity代表困惑度,发 map integer, mapintege b)定义 mark Map存储评分数据,其数据结鸡为 现在tφpNum为5~10时 perplexity最小。然后设置 lopNuR在 map integer, map integer, double) 1-10,先长为1,困惑度与主题数的关系如图4所示。困惑度 c)逐行遍历原评分文件,user和 inteRmap保存在 mark Map中,形如在 opiUm为6时最小,囚此木文后续实验主题数固定为6 [(u1,[(i1,1),(2,n12)]),(2,[(i1,n21),(i2,n2)])…] d)定义 itemSimMap,数据结构为 apd integer, map integer, double? )逐行遍历相似度矩阵,em1和iem2Ii保存于 ilemSimMar中, 形姒[(1,[(i,t12),(i3,13)]),(2,[(3,23),(4,24)])…] )遍历makM,获取当前uer的 item Map,遍历每个 itern. imMap 如果 itemMap巾不包含当前item值,那么当前user对当前icm的预评 12345678910 分可通过如下方式求解 (a)通过当前itcm获取其 valuel Map形如l(l2,t12),(i3,l13)…」 图4困惑度与主题数(步长为1 (b)通过当前user获取其 value2Map形如「(i1,v1),(42,n12) 3.1.2与AIS算法对比 (c)设置局部变量sm和n 为验证本文算法的有效性,在不同隐式参数设置下将AIS (d)遍历 valuel Map,获取当前 item Imp,当前值为 valuel'l'mp ①遍历vlue2Map查找键为 itemT'mp的项,值为 value2Tmp 算法和本文算法进行对比。另外,还将夲文算法中处理项目相 ②将(almp*ac2m+ alue Tm/a2Tmp)2叠加到似度的方式进行纵向对 比 sum,n白增1 首先设定隐式参数从5-40,步长为5,对比结果如图5所 (c)将当前user, item Tmp,sn的值写入 pre Mark Map 示。发现在5~10的MAF值最小,然后设定隐式参数从5 g)循执行步骤e)f),最后输出 pre Mark Map 算法2简婓地描述∫预评分求解过程,将输出的预评分填 0,步长为1进行对比。结果如图6所示,在MAE为3时三种 充到原评分文件即可作为ALS矩阵分解算法的训练集。 算法均能达到最小误差,并且本文算法的MAE值小于ALS算 法的MAE值。 0.75 5101520253035404550 0.71 510152025303540 图3因惑度与主题数(步长为5 隐因子数 2.1.4矩阵分解及推荐 图5隐囚子sep-5时算法对比 在得到训练集的前提下,利用1.1节的算法进行求解并推 0.82 A-IT-AISa n 荐。在1.Ⅰ节提到了隐式参数,本算法将平均绝对误差 (MAE)13值作为隐式参数的修正目标函数:MAE越小证明推 0.78 0.76 荐预测效果越好。MAE定义如式(7)所示,其中p;为预测评 分,q,为真实评分,N为测试集评分数。 0.72 12345678910 隐因子数 MAE= 图6隐肉了sep=1时算法对比 通过修正MAE得到的最优模型即可对用户进行推荐,比32其他推荐算法比较 如对用户U的预测矩阵如表4所小,那么就可以根据预测集 为了进一步证明本文算法的有效性,择取文献[17]提出 合优先推荐l3和l给用户U1 的算法以及基于用户和基于物品的协同过滤算法进行比较。 表4用户预测评分矩阵 由于后三种算法采用的是邻居用户或者邻近项目的调参方式, ; 不同于本文,所以采取最优值进行比较。为保证实验结果的有 效性,采用统一数据集、统一实验平台以及统一评价标准 MAE,将各个算法调参后的最优值作为最后统计结果。调参方 3实验对比及结果分析 法分别参考本文3.1节以及文献17」,最后得到的结果如图7 木实验使用的数据集来自美国 Group lens研究小组提供所示。 的 Movielens数据集。数据集中包括943个用广描述文件 3.3实验结果分析 1682个电影信息描述文件,10万个评分记录。本文从数据集 通过实验证明,本文算法平均绝对误差在设定不同隐因子 中抽取8%作为训练集,利用 LDAIT-ALS算法进行推荐,20%的情况下均小于ALS算法,同时也要优于文献[I7]的算法。 的测试集检测算法的效果。使用5折交叉平均实验结果减少通过图6可以发现ULR- ItemCF算法优于 ItemE算法和ALS 误差,采用MAF作为评价标准,实验方法如第2章所示。本文算法,原因在于 ULR-ItemCF算法也是利用了项目的描述信息, 算法由Jaa实现,实验平台为 Windows764位双核,IDE为缓解了冷启动问題,这也进一步证明了项口描述信息在推荐算 Erl 法中的重要性。同时,也可以发现本文算法LDA1T-ALS的最 1642· 计算机应用研究 第36卷 小MAE值为0.7257效果要好于ULR- ItemCF算法,原因在于 matical Problems in Engineering, 2017, 43 (5): 758-761 本文算法采用的主题模型生成的预评分正好填充∫AIS算法41 Katara R, Verma O F. An effective collaborative movie recommen- 训练集所缺的评分项,缓解了数据稀疏性并目解决了冷启动问 dersystem with cuckoo search J|. Egyptian Informatics Journal 题。例如,若表1中l是新上映电影,那么R13~Rn都为空 017.18(2):105-112 值如果将此时数据集作为训练集,推荐系统无法对用户进行15 Najafabadi M K, Mahrinm n,Chu甲nats,eal. Improving the accu 个性化推荐,也即出现了冷启动问题。在利用木文方法预测空 rary of collaborative filtering recommendalions using clustering and as- 白倌并填允后,再根据后续步骤即可进行正常推荐。另外,在 sociation rules mining on implicit data[ J]. Computers in Human Behavior,2017,67(C):113-128 实验中对项目相似度矩阵求解方法余弦相似度和KL散度进61 Zhou Yunhan, Wilkinson, Schreiber R,aa. Large-scale paral 行对比,结果KL散度实验效果优于余弦相似度。原因是KL lel collaborative filte 散度木身更适合计算两个概率分布之问的距离,而余弦相似度 nal Conference Algorithmic Aspects in Information and Management 更适用于实际窒间物理角度的计算。 gr,2008:337-348 0.755 [7 Blei DM, Ng A Y, Jordan M I. Latent Dirichlet allocation[J].Jour- 0.75 0.745 al of Machine Leaning Research, 2003, 3(4-5): 993-1022 0.74 [8 Villegas N M, Sanchez C, Diaz-Cely J, et al. Characterizing context- 0.73 aware recommender systems: a systematic literature review[J] 0.725 Knowledge-Based Systems, 2018, 140( 15): 173-200 0.715 L9」印鉴,王智圣,李珙,等.基于大规模隐式反馈的个性化推荐LJ」 0.71 软件学报,2014,25(9):1953-1966.( Ying jian, Wang zhisheng, LiQi, et al. Personalized recommendations based on large-scale im- plicit feedback[J. Journal of Software, 2014, 25(9): 1953 算法类型y、 1966.) 图7推荐算法对比 [10] Peritz M. Ein bruchstuck aus j hadah haja'g's arabischem werke uiber die hebraischen zeitworter mit schwachen stammlauten LJ I Zeitschrift fur die Alttestamentliche Wissenschaft, 2009, 13(1) 4结束语 169-222 本文提出的结合IDA主题模型的AIS推荐算法(IDA-T [11] Chai Huimin, Lei Jiangnan, Fang Min. Estimating Bayesian networks parameters using EM and Gibbs sampling J. Procedia Computer ALS)属于管道式的集成算法。利用改进算法建模将项目 Science,2017,111:16-166 描述信息处理成主題分布信息,然后融入到评分文件中,解决[12] Movielens100 K Dataset L DE/oL].htps:/ grouplens. org/data 了冷启动问颎并缓解了数据稀疏问题,使推荐准确度得到提 sels/ movielens/ 高。再者,本文对LDA原创作者的源码进行了改进以适应本[13] Zhao Weizhong, Chen JJ, Perkins R,ea!. A novel procedure on 实验的处理流程,避免了磁盘频繁读取的问題。另外,在项目 next generation sequencing data analysis using lext mining algorithm 相似度计算时引入了KL散度,提升了相似度度量准确率,减 [J. BMC Bioinformatics, 2016, 17(1): 301 小了推荐误差,与传统推荐算法相比准确度有所提高。但是推[14]项亮,推荐系统实践[M]北京:人民邮电出版社,2012.(Xing 荐算法依然面临许多问题,比如安全性、实时性问题。木文后 Liang Recommended system practice. M]. Beijing Posts Telecom 续作将着重于将LDA-II-AIS算法并行化,实现其在线实时 Press, 2012.) 处理 15] Zhao Weizhong, Chen J J, Perkins R, el al. A heuristic approach to determine an appropriate number of topics in topic modeling.JI 参考文軾 BMC Bioinformatics, 2015, 16(13): $8 [1 Guo Yan, Wang Minxi, Li Xin. Application of an improved Apriori 16 1 Moreno M N, Segrera S, Lopez V F, ct al. Web mining based frame algorithm in a mobile e-commerce recommendation system I. Indus work for solving usual problems in recommender systems: a case study trial Management Data Systems, 2017, 117(2): 287-303 for movies recommendation[ J. Neurocomputing, 2016, 176(C) [2 Wei Jian, He Jianhua, Chen Kai, et al. Collaborative filtering and deep learning based recommendation system for cold start items[J].[17]高娜,杨明.嵌λLDA主题模型的协冋过滤推荩算法[J].计算机 Expert Systems with Applications, 2017, 69(3): 29-39 41, 2016, 43(3): 57-61, 79.( Gao Na, Yang Ming. Collaborative [3 Xian Zhengzheng, Li Qiliang, Li Cai, et aL. New collaborative filte filtering recommendation algorithm embedded in LDA theme model ring algorithms based on SVD+ and differential privacy[ J]. Mathe [J. Computer Science, 2016, 43(3): 57-61, 79.) (上接第1632页) Journal on Digital Libraries, 2015, 16(2): 91-109 [12]刘剑波,杨健·基于SVD++与行为分析的社交推荐[J].计算机[15] Shams B, Haratizadeh s. Graph- based collaborative ranking[M] F )], 2013, 33(SI): 82-86.( Liu Jianbo, Yang Jian. Social recom- mendation based on SVD++ and behavior analysis[ J. Joumal of 16 Gonzalez J E, Xin RS, Dave A. et aL. GraphX: graph processing in Computer Applications, 2013, 33(51): 82-86.) a distributed dataflow framework[C//Proc of USE.NIX Conference [13]谢玮,沈一,玛永征.基于图计算的论文官稿自动推荐系统[J 计算机应用研究,2016,33(3):798-801.( Xie wei, Shen yi,Ma on Operating Systems Design and Implementation. [ S1.1: USENIX Yong Association. 2014: 599-613 graph computing[ J]. Application Research of Computers, 2016 [1η]何海汘.基于矩阵分解及其图模型的协冋过漶推荐算法研究 33(3):798-801.) [冂].西安:西安电子科技大学,2015.( He Haiyang. Research on 14] Sugiyama K, Kan M Y. A comprehensive evaluation of scholarly pa- collaborative filtering recommendation algorithm based on matrix de- per recommendation using potential citation papers[J. International composition and graph model D. Xi'an: Xirlian University, 2015.

...展开详情
试读 5P 论文研究-一种结合主题模型的推荐算法.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
weixin_39841848 欢迎大家使用并留下宝贵意见
2019-07-22
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
    最新推荐
    论文研究-一种结合主题模型的推荐算法.pdf 13积分/C币 立即下载
    1/5
    论文研究-一种结合主题模型的推荐算法.pdf第1页

    试读结束, 可继续读1页

    13积分/C币 立即下载 >