本篇论文主要研究了在信息检索领域中,如何利用本体中的多层信息来计算概念的相似度。概念相似度的计算是信息检索的基础,它能够帮助我们高效地从海量信息中找到用户需要的有价值的内容。本体作为一种能够在语义层面上描述数据的技术,为计算概念间相似度提供了新的可能性。
研究中提到的相似度度量方法主要分为三种,分别是基于字面(词形)、语义和语用的方法。字面相似度计算通常考虑概念名称的相似性,比如使用编辑距离或基于相同字词的计算方法。编辑距离是指将一个字符串转换为另一个字符串所需要的最少编辑操作次数,这种计算方法特别适用于判断两个字符串的相似度。
语义相似度计算则更注重概念的内涵和外延,尝试通过义类词典或词汇分类体系来衡量概念间的相似程度。义类词典中的概念通常构成一个有层次的树状结构,概念之间的距离(概念距离)可以表示它们的相似性。此外,语料库也常被用来计算概念的语义相似度,通过分析概念的上下文信息来衡量它们的相似度。词汇共现的方法和词汇语义向量空间模型的方法是基于语料库计算语义相似度的两种常用方法。
语用相似度计算基于概念在实际应用环境中的应用来衡量它们之间的相似度。这种方法通常会利用搜索引擎的检索结果,并采用互信息等方法来统计分析概念之间的相似度。PMI-IR算法是一个利用搜索引擎统计分析检索结果来衡量概念相似度的例子。此外,LC-IR算法则是对PMI-IR方法的改进,它结合了本地小型搜索引擎,使得统计分析更为准确。
本篇论文提出了一种新的计算概念相似度的方法,它综合了字面相似度、语义相似度和语用相似度的计算结果。通过比较概念全称、计算语义相似度和统计分析搜索引擎返回结果,分别得出概念在词形、语义、语用三个层面上的相似度,最后综合这三个相似度来完成相似度的计算。这种方法在实证研究中显示出较好的效果。
在概念相似度的计算中,作者采用了GLUE系统中的方法来计算字面相似度,通过概念树中根结点到当前结点所有概念名称的串联,形成当前结点的全称,通过对全称中概念个数的统计分析,计算出概念的字面相似度。而在语义相似度的计算中,作者选用了《知网》作为义类词典来衡量概念的语义相似度。
论文还提到,相似度的取值范围为0到1之间。当两个概念完全相同时,相似度为1;当两个概念没有任何关联时,相似度为0;在其他情况下,相似度介于0到1之间。
此外,本文所提出的方法得到了湖南省自然科学基金计划项目和省自然科学基金的资助,这说明该研究受到了相关科研机构的重视和认可。
总结来说,本篇论文所进行的研究工作,是信息检索领域中一个十分重要的课题。随着互联网技术的快速发展和信息爆炸时代的来临,如何准确高效地计算概念相似度,以便从大量数据中快速检索到用户感兴趣的信息,成为了当前迫切需要解决的问题。这篇论文通过结合字面相似度、语义相似度和语用相似度的综合计算方法,为解决这一问题提供了新的思路和可能。