论文研究-基于图计算的论文审稿自动推荐系统.pdf

所需积分/C币:15 2019-07-22 19:22:01 967KB .PDF
收藏 收藏
举报

针对传统审稿方式所存在的问题,设计了基于TextRank图算法思想的论文推荐系统,以实现论文审稿分配过程的自动化。系统通过加入词与词之间的影响力计算以及多文档集中逆文档频率IDF,实现关键词抽取部分,并使用基于余弦向量值的计算对抽取出的关键词向量进行相似度匹配,最后计算审稿人在各研究领域的影响力,实现论文的推荐。采用了综合考察准确率、召回率的F值作为评测指标,验证了该方法的有效性。在实际使用环境中,该系统具有较高的准确性与可靠性。
800· 计算机应用研究 第33卷 示节点,的覆盖影响力传递到节点v的权重,B(v;,)表示个关键词;2表示关键词t,所对应的分值。 节点n,的频度影响力传递到节点的权重。假设论文文本包2.2相似度计算 含n个候选关键词,那么所有词语的初始分值S为 2.2.1待审核论文所属领域 根据式(1)(2),可分别得出待审核论文的关键词向量A 构建词话之间的影响力转移矩阵M为 和每一个研充兴趣下的关键词向量B 本文使用了基于向量余弦值的相似度计算方法对以上两 个向量进行相似度匹配。得分越高表示向量越相似,则将该论 文归在相应的兴趣类別中。因此,根据相似度计算式,得到待 中核论文A与所有研究兴趣B的相似度为 其中:儿索表示第j个词语v的影响力转移到第氵个词语 ∑(a;×bm) 的权重:,=a·wa(L,n)+β·B(,,)。所有词语的分值 (A;,Bn)= (4) 在经过转移矩阵的多次迭代后得到,考虑到非连通图存在的情 况,迭代式13为 进而得出论文A:所属类别,将其推荐到该领域。 2.2审稿人曾发表论文所属领域 s. EdxMxS.+(l-d)xe/n 其中:d为阻尼系数;e为一个所有分量为1、维数为n的向量。 同样,使用基于向量余弦值的相似度计算方法对审稿人曾 发表的所有论文的特征向量C,和每个研究兴趣下的关键词 根据以上算法对待审核论文构建特征向量 A;=((ln,a1),(l2,a),(t3,a3)…(tn,amn) (1)特征向量B作相似度匹配。将论文归在与其相似度得分最高 的研究方向中。得到审稿人在各个方向下的论文序列,用于之 其中:八表示待审核论文讠的特征回量;(=1,2,3,…,n)表后的计算。因此,根据相似度计算式,得到审稿人x曾发表 示将论文i的关键词降序排序后的第j个关键词;表小关键论文C与研究兴趣B的相似度为 词t所对应的分值。 2.1.2审稿人研究兴趣的关键词抽取 im(C, B) ∑k=1(bm) 对于审稿人而言,dHme上已经有了他们自己所列的研究兴 趣,因此在对科研人员信息进行关键词抽取时按照其研充兴趣分 利用该公式可得到审稿人曾发表的所有论文所属的研究 类,将具有该研究兴趣的科研人员的所有论文放入这个兴趣类方向类别。 别中,能够得到该研究兴趣下的所有关键词与其相应的分值 2.3审稿人影响力计算 考虑到科研人员可能对不同学科有研究,且其发表的论文 由于论文需推荐给相关领域的权威人士审核,木文会根据 -般多于一篇,因此为避免产生大量无意义的高权重关键间,这些科研人员曾经发表的沦文计算其在该领域的影响力。 引人多文档集中关键词的逆文档频率IF( inverse document 通过式(2)(3)(5),能够得到审稿人在研究兴趣R上的 frequency),然后对具有某一研究兴趣的审槁人曾发表的所 篇或多篇论文P2,则有 有论文数据使用 Textrank x ll的关键词抽取方法。 e=[P1,p2,P3,…,Pm] 文中将定义如下: 令s(p4)表小论文发表的期刊、会议等的影响囚子;n(P) 表示该作者曾发表的某篇沦文被引用的次数;6(P:)表示该审 IDE 稿人在论文p上的贡献值,该值可通过审稿人为第作者、通 其中:N表示文档集合中所有的文档数目,n,表示整个文档集信作者或其他作者来判断并赋值,则有2="6(P)=1 合中出现过的词条i的文档总数 因此,令审稿人在领域R上的影响因子 因此在具体计算时,对丁具有某一研究兴趣的作者曾发表 (R)=leg、∑n(Pk)(P:)(p:)) (6) 的所有论文的核心数据(包括标题、摘要、关键词)进行处理。 对于候选关键词中的词,即给定的节点n;,经过基于词与词之 根据影响因子I(R)将审稿人排序之后,将论文按照I(R 问的影响力的 TextRank计算得出了S,表示节点v;在单篇文 由高向低推荐。为保证稿件均匀推荐给各审稿人,且需限制每 档中计算得到的 TextRank值。那么,对于某一研究方向下的 篇论文的审稿人的数月,使用动态规划算法解决该问题。 所有关键词而言,其特征权重值为:0= S. XIDF,其中S表示24论文推荐 词条i在文档j屮的 TextRank值。 根据式(6),得到每位审稿人在每个领域的影响因子(作 根据该算法对所有审稿人的研究兴趣关键词构建待征向量: 为其兴趣与能力的衡量);根据式(4),得到每篇论文在每个领 B=( Aa,2),(1,1)…,、m,4n)(2)域的影响因子。综合二者结果即得到为每位审人推荐的论 其中:B表示具有研究兴趣p的审稿人曾发表的所有论文集文列表屮每篇论文的综合分值,结果按照分值降序排序,计算 合的特征向量;n(q=1,2,3,…,n)表示将这些论文的关键词得到为每位审稿人r推荐的论文列表。如此,既保证了推荐的 降序排序后的第q个关键词;bm表示关键词m所对应的分值。 论文与审稿人兴趣和能力的相关性,又合理地避免∫一份稿件 同样,使用 TextRank x ide的方法对每个市稿人曾发表的被同时推荐给过多审稿人的间题。 论文集合构建特征向量 3实验结果及分析 C,=( 其中:C表示审稿人x曾发表的所有论文集合的特征向量;n3.1实验数据及系统评测指标 (y=1,2,3,…,n)表示将这些沦文的关键词降序排序后的第y CSP中目前注册用户数已超过9万人次,注册会议数量超 第3期 谢玮,等:基于图计算的论文审稿自动推荐系统 801 过1300个。 dhome中注册用户数近7000人次。为验证实验,因此分母T(r)值较大。为平衡召回率对实验结果的 算法的性能,夲系统使用CSP中一些国内会议曾经接收的部影响,选取F值作为综合指标,并令该指标强调准确率,根据 分稿件数据(论文语言为中文)和 dhome中的科研人员信息与图5可知F值的计算结果,且在N=5,6,7,8时效果最佳。 其曾审核过的论文效据进行实验分析。实验中,选取部分审稿 数据较为密集的审稿人(100人)作为用户,这些用户的审犒数4结束语 量均大于10篇,以他们曾审核过的论文数据作为实验的测试 本文主要通过关键词抽取方法和相似度计算实现了论文 集。实验的训练集为随机抽取的CSP上部分会议曾接收的稿 预推荐系统,为会议服务平台的会议主办方提供便利,同时使 件集合,数量为1500。本文准荐系统主要选取TopN推荐的预 dHome中的科研人员有机会与会议主办方建立友好关系。在 测准确度(分为准确率和召回率)作为系统的评测指标。 进行单一文档的关键词抽取时,基于 Text Rank图算法思想加 令r表示审稿人,R(r)表示系统基于训练集为稿人推荐入词与词之间的关系形成权重,利用该权重对关词的 的论文列表,而T(r)表小审稿人曾经实际审核的论文列表。 TextRank值进行计算;在进行多文档关键词抽取时,引入多文 则推荐结果的准确率为 档集屮关键词的逆文档频率IDF,以保证更好的关键词抽取结 ∑,ek|R(r)∩T(r) Precision RIR(r)I 果。由于生成的关键词序列具有权重,因而在相似度匹配时,得 推荐结果的召回率为 到的结果也会更为精准。针对审稿过程中的稿件实际分配情 Recall ∑reg|R(r)r(r)l 况,限制了每篇论文的审稿人数量和每位审稿人收到的推荐列 ∑,∈R|T(r) 表长度。实验证明,该系统能够对论文进行较为准确的推荐。 为综合考察准确率和召回率,使用F值 下一步工作着重于进一步优化算法,提高推荐结果的准确度,并 F=(8+1)PR 利川卞题模型等方法进行实验,与本文所用算法进行对比 a-P+R 参考文献 3.2实验结果分析 [1]项亮,推荐系统实践[M].北京:人民邨电出版社,2012 考虐到审稿人实际审稿问题,每次推荐论文数量不宜过[2魏生,郑依华,南凯基于云服务的会议股务平台研究与实现 多,因此本文选取N=13,4,5,6,7,8,9,10}进行实验,N表刀 [冂].计算机工程,2011,38(4):233-235 [3]中国科学院国际会议服务平台发布会议数突破千个[EB/OL] 炣次推荐给审稿人的论文列表长度。 (2014-07-03).2015-03-10].hp://ww.cnie.cn/xw/kydu 为保证实验的准确性,令实验重复进行三次,取平均值得 201407/201407044149054.html 到每次的推荐结果。如图3~5所示,分别表示Ⅳ在取不冋值「4南凯,董科军,谢建军,等,面向云服务的科研协同平台研究「J 时,推荐结果的准确率、召回率和F值。 华中科技大学学报:自然科学版,2010,38(1):14-9. [5. Chumki B, Ilaym II, Cohen WW, et al. technical paper recommenda 07 tion: a study in comhining multiple information sources[J]. Journal 0. 0 实验1 of Artificial Intelligence Research, 2001, 14: 231-252 零04 实验2回0.2 卖验3 o3.2[6 Mihalcea R, Tarau P. Text Rank: bring order into texts[C]//Proe of 目m实验3 0. Conference on Empirical Methods in Natual Language Processin 004:355-369 345678910 345678910 [7. Lee L. Similarity-based approaches Io nalural language processing, TR 值 图3论文推荐的准确率 图4论文推荐的召回率 11-97[R]. Cambrdge: Harvard University, 1997. [8 Agarwal N, Haque E, Liu H, et al. Research paper recommender sys- 0.6 0.5 ng approach C l//Proc of the 6th In 0.4 tional Conference on Advances in Web-Age Information Management 日实验2 2005:475491 实验 [9 Pazzani M J, Billsus D Content-based recommendation systems M/ The Adaptive Web. Berlin Springer, 2007: 325-341 8910 [10 Herlocker J L, Konstan J A, Riedl J. Explaining collaborative filtering 图5F值 recommendations[ C |//Proc of ACM Conference on Computer Sup 本实验中,令d为其一般取值,即d=0.85。由文献[12] ported Cooperative Work. [S.I.]: ACM Press, 2000: 241-250 可知,当mB取值分别为1、0时,算法转换为传统的基于Iex 11 Singhal A Modern informalion retrieval: a brief overview [J]. Bulletin of the IEEE Computer Society Technical Committee on Data tRank的关键词抽取算法。在实验过程中,当α、B取值均为 Engineering,2001,24(4):35-43. 0.5时,关健词抽取效果最,因此本文选取α=0.5B=0.5「121夏天,词语位置加权1lank的关键词抽取研究「J·现代图书 得到关键词抽取结果,针对论文推荐结果的预测准确度进行实 情报抆木,2013,29(9):30-34. 验。在进行F值计算时,由于系统较为侧重于准确率的衡量,L13」 Page L. The PageRank citation ranking: bringing order to the web 因此取θ=0.5进行实验。 [J. Stanford Infolab, 1999, 9(1): 1-14 从图3中可看出,当N=5时,论文推荐的准确率最高,平[14 Manning C D, Raghavan P,shme.信息检索导沦[M].三斌, 均达到了0.Ⅵ,当N大于5时,随着N变大,R(r)|增长较快 译.北京:人民邮电出版社,2010:883 [15 Bellman E R. Dynamic programming[M].[SI ]: Dover Publica 因此准确率逐步呈现出递减趋势。由图4可看岀,论文推荐的 ons,2013 召回率始终在0.4以内,且随着N值上升逐步呈现平稳趋勢,[16]科技云,服务监控[EBO1.[2015-03-101.mp:w.si 这是由于实验中取的是审稿较为密集的审稿人的审稿列表做 encecloud. cn/se monitor. htm

...展开详情
试读 4P 论文研究-基于图计算的论文审稿自动推荐系统.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
抢沙发
一个资源只可评论一次,评论内容不能少于5个字
weixin_39840650 你的留言是对我莫大的支持
2019-07-22
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
最新推荐
论文研究-基于图计算的论文审稿自动推荐系统.pdf 15积分/C币 立即下载
1/4
论文研究-基于图计算的论文审稿自动推荐系统.pdf第1页

试读结束, 可继续读1页

15积分/C币 立即下载 >