论文研究-面向机构知识库结构化数据的文本相似度评价算法 .pdf

所需积分/C币:10 2019-08-16 09:27:13 483KB .PDF
7
收藏 收藏
举报

面向机构知识库结构化数据的文本相似度评价算法,吴旭,郭芳毓,机构知识库中文本数据集多呈现结构化,且具有离散性,对此本文提出一种文本相似度评价算法。通过分析DC(Dublin Core)元数据格式,��
山国武获论文在丝 http:/www.paper.edu.cn 度之间的差异,没法衡量每个维数值的差异。余弦相似度对数值的不敏感导致了结果的误差, 85需要修正这种不合理性,就出现了调整余弦相似度( Adjusted Cosine similarity),即所有维度 上的数值都减去一个均值,这显然更加符合现实 (2)皮尔森相关系数( Pearson Correlation Coefficient) 即相关分析中的相关系数r,分别对ⅹ和Y基于自身总体标准化后计算空间向量的余弦 夹角。公式如下 n> xy r(X, Y) 90 2x(∑x)Vy-(∑ (公式2) (3) Jaccard相似系数( Jaccard Coefficient) Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征 属性都是由符号度量或者布尔值标识,因此尢法衡量差异只体值的大小,只能获得“是否相 同”这个结果,所以 Jaccard系数只关心个体间共冋只有的特征是一致这个问题。公式如 Jaccard (x, Y)=xUr (公式3) 基于距离的度量方法有: (1)欧儿里德距离( Euclidean distance 欧氏距离是最常见的距离度量,它衡量的是多维空间中各个点之间的绝对距离。由于汁 100算的是基于各维度特征的绝对数值,所以欢式度量需要保证各维度指标在相同的刻度级别。 公式如下: (x,1)=∑(x-y) (公式4) (2)明可夫斯基距离( Minkowski distance 明氏距离是欢氏距离的推广,是对多个距离度量公式的概括性的表述。公式如下: 1/ ds(X,)=-∑|x-P 105 (公式5) 这里的p值是一个变量,当p-2的时候就得到了欧氏距离。 (3)曼哈顿距离( Manhattan distance) 曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果,即当上面 的明氏距离中p=1时得到的距离度量公式,如卜 ds(Xx,Y)=∑|r-y 110 (公式6) (4)切比雪夫距离( Chebyshev distance) 切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国上每次只能往周围 的8格屮走一步,那么如果要从棋盘中A格(xl,yl)走到B格(x2,y2)最少需要走几步?扩展 到多维空间,其实切比雪大距离就是当p趋向于无穷大时的明氏距离: 山国武获论文在丝 http:/www.paper.edu.cn d(X,)=1m∑|-yP=mNk-y 115 (公式7) (5)马哈拉诺比斯距离( Mahalanobis distance 既然欧几里得距离无法忽略指标度量的差异,所以在使用欧氏距离之前需要对底层指标 进行数据的标准化,而基于各指标维度进行标准化后再使用欧氏距离就衍生出来另外一个距 离度量——马哈拉诺比斯距离( Mahalanobis distance),简称马氏距离 120 鳖」高校杋构知识库数据具有特姝性,采用传统的相似度评价算法计算文木相似度,不 能满足机构知识库中特殊数据格式的需求,没有考虑到对于·篇文章而言,不同字段具有不 同的重要性,进而会对文本的整体相似度产生不同影响,同吋也无法避免机构知识库离散数 据集在进行相似度计算时的向量高维问题。 2文本相似度评价算法描述 52.1算法概述 通过分析DC元数据格式,筛选其中有效数据,针对特有数据表抽取有效字段dc;itlc 题目、 dc. description. abstract摘要以及 dc. subject关键字,进行基于内容过滤的题相似度计 算。分别计算词语在题目、摘要以及关键字这三个域中的权重并统计匹配次数,并在文本长 度归一化的基础上进行文本相似度计算。 13022算法定义 定义1(度量空间)一个度量空间是指一个元数据对象集X,其中,涉及三个子度量 间,即元数据对象集中题目、摘要、关健字分别构成的子集合x,其中∈{4,分 别表示 title abstract、 kcywords构成的子集合 定义2(权值因子)根据TF-IDF算法,分别计算词话在相应字段中的权重,作为该词 135语在当前字段中的权值因了。对于X中的元数据对象4而言,用1、14n、1分别表示 其题目、摘要、关键字部分,假设′〃、灬、同时出现词语",则中该词语对应于 x、x、x的权值因子分别表示为"m、、 定义3(权值)两个对象所匹配诃语的权值为该词语相应权值因子的期望值。假设需要 进行相似度计算的元数据对象为 ,则对于匹配词语"对应于 xI xk的权值分 140别为: :+ i∈{t,a,k (公式8) 定义4(长度)对元数据对象A的题目、摘要、关键字分别进行分词,去停用词操作, 得到的词语个数即为相应长度,记为my,∈{a,k} 定义5(相似度因子)两个元数据对象题目、摘要、关键字分别计算相似度,得到三个 145相似度因子。假设需要进行相似度计算的元数据对象为、,则相似度因子表示为 4 山国武获论文在丝 http:/www.paper.edu.cn ate(l∩lB2) min(lenIu, lenlb) iet, a, k (公式9) min(lenI11m)目的是进行长度的归一化,减小长度对匹配次数产牛的影响。 alue(4∩l)=∑ i∈{l,a,k (公式10) 其中,7为词语"在:4、B中的匹配次数 150 综上,计算两个元数据对象4、B相似度的公式为: sim(/ ∈{} 公式11) 其中,对应题目、摘要、关键字对应的权值,满足∽′ O,+a+0,=1 3文本相似度评价算法实现 本算法的核心思想可以概括为以下两点: (1)词语匹配。词话匹配是相似度评价算法的基础,涉及的字段有题日、摘要和关键 字。对于需要计算相似度的两篇文章,分别针对题日、摘要和关键字进行分词,统计对应字 段相关词语同时出现的数量 (2)权重设定。杖重设定主要包括两方面:是根据题目、摘要、关键字对于篇文 章的重要性,分别对这三项没定权值,保证权值和为¨;二是根据词语在某篇文章以及在整 160个文档集中出现的频率对该词语进行权值设定。 文本相似度的算法流程如图1所示,从该图中可以看出,算法基本流程是: 首先,对待比较的两篇文章分别针对题目、摘要和关键字进行分词。 I KAnanlyze具有 分词速度快、支持停用词词表和扩展词词表的优点,所以本文采用 IKAnalyzer作为分词工 具 165 其次,计算词语在对应域中的权值,并统计对应字段相关词语同时出现的数量; 用次,分别计算题日、摘要、关键字三部分的相似度,即计算三个域的词语权重和匹配 次数乘积的加和,而后除以对应待比较域中分词去停用词之后词语数较小者,减小长度对匹 配次数产生的影响 最终,计算相似度与对应域的权重乘积并加和(此处的权重是根据题目、摘要、关键字 170对于一篇文章的重要性设定的,三者权值之和为一),得到待比较文本的相似度。 山国武获论文在丝 http:/www.paper.edu.cn 待比较文本 提取数据域 题目域/摘要域/关鍵字域 分词 计算词语在各域中的 统计词语在各域中的 TF-DF权重 匹配次数 词语权重 <词语,匹配次数> 对应域乘积加和除以 比较域中词语较小者 每个域的各自相似度 乘域权重求和 待比较文本的 相似度 图1文本相似度评价算法主要流程 4实验结果分析 选用从网终上搜集到的3000篇文章的标题、摘要和关键字作为实验文本集,文本集组 175成规则如下 (1)文本数据涉及5种主题(包括云计算、社交推荐、个性化推荐、医疗改革、农村 医疗) (2)主题关系包含3种:交叉关系、不相关关系、同主趣关系。 将文木集随机分成训练集和测试集,针对训练集中的文木两两计算相似度,多次选定不 180同主题中的不同文本,分析该文本与其他文本间的相似度,对应主题关系设定阈值泡围,查 询并统计测试集中阈值范围中的文本数,计算准确率,公式如下: 准确率 (公式12) 其中,为分类正确的文章数量,N为被分类的文章总数。图4-1展示了20次实验中 的文木相似度统计数据。由20次实验的统汁数据计算,准确率均值为87.81%,可见算法达 185到了较高的应用水平。 山国武获论文在丝 http:/www.paper.edu.cn 准确率 86 84 1234567891011121314151617181920 实验序号 图2二十次实验的准确率 5结论 本文提出了一种基于词语匹配和TF-ⅠDF方法的文本相似度评价算法,降低了机构知识 190库离散数据集在进行相似度讣算时的向量维度,并引入」不冋权重词语对整体相似度有不同 影响这一概念。综合分析词语在不同数据域中的权值、匹配次数以及不同数据域对相似度结 果不同程度的影响,不断调整调和参数以优化相似度评价算法。实验结果表明,木文提出的 算法与实际教据吻合较好,得到的文本相似度有较扃的实用价值。在词语匹配计算中,本文 只考虑了常见同义词,如何适应多种因素的影响,处理更复杂的语义结构信息,构建更加 195理高效的语义相似度算法将是今后的一个研究方向。 参考文献]( References) 1 Bonilla-Calero A. Institutional Repositories as complementary tools to evaluate the quantity and quality of 200 research outputs[J]. Library Review, 2014, 63(1/2): 3-3 [2] Armstrong M. Institutional repository managcmcnt models that support faculty rescarch dissemination[] [ Lynch C A. Institutional repositories: essential infrastructure for scholarship in the digital age[ portal Libraries and the academy, 2003, 3(2): 327-336 205 [4]Ruiz-Conde E, Calderon-Martinez A. University institutional repositories: competitive environment and their role as communication media of scientific knowledge]. Scientometrics, 2014, 98(2): 1283-1299 15」聂华,韦成府,崔洶嫒.(AIS机构知识厍:建设与排广,反思与展望刂中国图书馆学报,2013(2) 46-52 206]李雨,张明宝Web2.0环境下的科技论文共享之机构知识库江苏科技信息,2013(23):17-19 [门]孙鵬.论高校机构知识库服务体系的建设[.图书馆学刊,2013. [8]王文联.嵌入数据监护的图书馆杋枃库髙效运行模式[J.新世纪图书馆,2014(3):36-38. [9]刘瑛.我国机构知识库建设屮存在的问题及对策探研[J.黑龙江史志,2012,19:03 [10 Ye J. Multicriteria group decision-making method using vector similarity measures for trapezoidal intuitionistic fuzzy numbers[J]. Group Decision and Negotiation, 2012, 21(4): 519-530 215 [11] Wu D, Mendel J M. A vector similarity measure for linguistic approximation: Interval type-2 and type-1 fuzzy sets[]. Information Sciences, 2008, 178(2): 381-402 [12] Kckrc H B, Mishra D, Kariwala A. A survcy of CBir tcchniqucs and semantics[J]. International journal of Engineering science and Technology (IJEST), 2011, 3(5): 4510-4517 13 Ahn II J. A new similarity measure for collaborative filtering to alleviate the new user cold-starting 220 problem[J]. Information Sciences, 2008, 178(1): 37-51

...展开详情
试读 7P 论文研究-面向机构知识库结构化数据的文本相似度评价算法 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
weixin_39840924 欢迎大家使用并留下宝贵意见
2019-08-16
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
    最新推荐
    论文研究-面向机构知识库结构化数据的文本相似度评价算法 .pdf 10积分/C币 立即下载
    1/7
    论文研究-面向机构知识库结构化数据的文本相似度评价算法 .pdf第1页
    论文研究-面向机构知识库结构化数据的文本相似度评价算法 .pdf第2页

    试读结束, 可继续读1页

    10积分/C币 立即下载 >