【免费】文本相似度计算方法研究综述

需积分: 0 9 浏览量 2022-08-03 12:52:58 上传评论收藏 1.85MB PDF 举报

文本相似度计算方法研究综述文本相似度计算是自然语言处理中的一项基础性研究，通过总结和分析文本相似度计算的经典方法和当前最新的研究成果，完善对文本相似度计算方法的系统化研究，以便于快速学习和掌握文本相似度计算方法。文本相似度计算方法可以分为两大类：表面文本相似度计算方法和语义相似度计算方法。表面文本相似度计算方法是指通过计算文本之间的表面特征，例如词频、词长、词序等，来计算文本之间的相似度。语义相似度计算方法是指通过计算文本之间的语义特征，例如词义、概念、关系等，来计算文本之间的相似度。表面文本相似度计算方法包括： 1.词频向量空间模型（VSM）：该方法将文本表示为词频向量，计算文本之间的相似度通过计算词频向量之间的夹角余弦。 2.词袋模型（BOW）：该方法将文本表示为词袋模型，计算文本之间的相似度通过计算词袋模型之间的相似度。 3.长短期记忆网络模型（LSTM）：该方法将文本表示为长短期记忆网络模型，计算文本之间的相似度通过计算长短期记忆网络模型之间的相似度。语义相似度计算方法包括： 1.基于语料库的方法：该方法通过建立大规模语料库，计算文本之间的语义相似度。 2.基于 Word Embedding 的方法：该方法通过将词语表示为词向量，计算文本之间的语义相似度。 3.基于知识图谱的方法：该方法通过建立知识图谱，计算文本之间的语义相似度。文本相似度计算方法在自然语言处理领域中有着广泛的应用，例如文本分类、文本聚类、词义消歧等信息检索问题上，搜索引擎中的问答系统、智能检索等问题都需要文本相似度算法作为支撑。此外，文本相似度算法也广泛应用在自动摘要、机器翻译、文本生成等自然语言处理任务中。文本相似度计算方法是自然语言处理领域中的一项基础性研究，通过总结和分析文本相似度计算的经典方法和当前最新的研究成果，完善对文本相似度计算方法的系统化研究，以便于快速学习和掌握文本相似度计算方法。在未来的研究中，需要进一步深入研究文本相似度计算方法，特别是在大规模数据和多语言环境下的文本相似度计算问题，开发出更加准确、快速和可靠的文本相似度计算算法，以满足自然语言处理和信息检索等领域的需求。

资源详情

资源评论

资源推荐

文本相似度计算方法研究综述

王春柳，杨永辉，邓霏，赖辉源

（中国工程物理研究院计算机应用研究所，四川绵阳 621000）

摘要：【目的/意义】文本相似度计算是自然语言处理中的一项基础性研究，通过总结和分析文本相似度计算的经

典方法和当前最新的研究成果，完善对文本相似度计算方法的系统化研究，以便于快速学习和掌握文本相似度计

算方法。【方法/内容】对过去 20 年的文本相似度计算领域的经典文献进行整理，分析不同计算方法的基本思想、优

缺点，总结每种计算方法的侧重点和不同方向上最新的研究进展。【结果/结论】从表面文本相似度计算方法和语义

相似度计算方法两方面进行阐述，形成较为全面的分类体系，其中语义相似度计算方法中的基于语料库的方法是

该领域最为主要的研究方向。

关键字：文本相似度；语义相似度；语料库

中图分类号：G254; G252.8 DOI：10.13833/j.issn.1007-7634.2019.03.026

A Review of Text Similarity Approaches

WANG Chun-liu, YANG Yong-hui, DENG Fei, LAI Hui-yuan

(Institute of Computer Application, China Academy of Engineering Physics, Mianyang 621000,China)

Abstract:【Purpose/significance】Text similarity calculation is a basic research in natural language processing. Through

summing up and analyzing the classical methods of text similarity calculation and the latest research results, we improve

the systematic research on text similarity algorithms, so as to quickly learn and grasp the text similarity calculation methods.

【Method/process】We collate the classical literature in the field of text similarity algorithms in the past 20 years, and ana⁃

lyze the basic ideas, advantages and disadvantages of different computing methods, and summarizes the emphasis of each

method and the latest research progress in different directions.【Result/conclusion】The surface text similarity calculation

method and semantic similarity calculation method were discussed to form a more comprehensive classification system. Cor⁃

pus-based approach to semantic similarity calculation is the most important research direction in this field.

Keywords: text similarity; semantic similarity; sorpus-based; review

收稿日期：2018-05-27

基金项目：国防基础科研计划重点项目（JCKY2016212B004）

作者简介：王春柳（1993-），女，吉林辽源人，硕士研究生，主要从事语义计算、对话系统评测研究.

1 引言

文本相似度计算是指通过一定的策略比较两个或多个

实体(包括词语、短文本、文档)之间的相似程度，得到一个具

体量化的相似度数值。随着计算机技术的迅速发展，越来越

多的信息充斥在网络平台上，对这些文本信息的深度挖掘和

研究对于帮助人们快速准确获取与需求相关的内容具有非

常实际的意义。其中，文本相似度算法是文本挖掘中的一个

至关重要的算法，是联系文本建模和表示等基础研究和文本

潜在信息上层应用研究的纽带

【1】

。例如，在文本分类、文本

聚类、词义消歧等信息检索问题上，搜索引擎中的问答系

统、智能检索等问题都需要文本相似度算法作为支撑。此

外，文本相似度算法也广泛应用在自动摘要、机器翻译等自

然语言处理问题中，是自然语言处理问题中的核心算法。

因此，完善对文本相似度算法的系统化研究具有非常重要

的应用价值。

目前，文本相似度计算的方法已经越来越多，大多数学

者比较认可的分类方式是：基于字符串(String-Based)的方

法、基于语料库(Corpus-Based)的方法、基于知识库(Knowl⁃

edge-Based)的方法和混合方法

【2-4】

。为便于快速学习文本相

似度计算方法，本文将近年来的国内外相关文献进行收集、

情报科学

第第 3737 卷卷第第 33 期期 20192019 年年 33 月月

综

述

述·

-- 158

整理和分析，在不影响全局分类的情况下，对各类方法重新

进行了归纳、梳理和补充，从表面文本相似度(Surface Text

Similarity)计算方法、语义相似度(Semantic Similarity)计算方

法两方面进行阐述，使得分类结构更浅显易懂。由于混合方

法是将文本相似度计算各类中的不同方法进行结合计算来

提高计算效果，本文将不再赘述关于混合方法的研究内容。

2 表面文本相似度计算

表面文本相似度计算直接针对原始文本，作用于字符串

序列或字符组合，以两个文本的字符匹配程度或距离作为相

似度的衡量标准。其算法原理简单、易于实现，是研究历史

最长的一类文本相似度算法。下面我们主要针对 Gomaa

【4】

和陈二静

【5】

等人的分类内容进行补充和完善，其整体的分类

体系如图 1所示。

图 1 表面文本相似度计算方法分类

根据计算粒度的区别，通常将表面文本相似度计算方法

细分为基于字符(Character-Based)的方法和基于术语(Term-

Based)的方法。基于字符的方法包括编辑距离(Levenshtein

Distance，LD)

【6】

、最长公共子序列(Longest Common Sequence，

LCS)

【7】

、汉明距离(Hamming Distance)

【8】

、N 元模型(N-Gram)

【9】

等，其中关于编辑距离的算法还存在很多种变体，如 Weight⁃

ed- Levenshtein、Damerau- Levenshtein

【10】

、Optimal String

Alignment、Jaro-Winkler

【11】

等，在拼音纠错和链接领域都有着

广泛的应用，而 Needleman-Wunsch

【12】

算法和 Smith-Water⁃

man

【13】

算法属于 LSC 中的一类，是基于动态规划的思想对两

个序列分别进行全局最优比对和局部最优比对，主要应用在

生物信息学中的 DNA序列比对。

基于术语的方法根据计算时表示方式的不同可以分为

基于表面术语(Surface Term/word)和基于空间向量模型(Vec⁃

tor Space Model，VSM)

【14】

以及基于散列(Hash)算法三种方式，

其中 N- Gram、Jaccard 相似性

【15】

、Dice 系数

【16】

、重叠系数

(Overlap Coefficient)是直接计算术语的匹配程度，其核心思

想是将文本相似性问题转化为集合的问题。

基于向量空间模型的方法包括匹配系数(Matching Co⁃

efficient)、余弦相似度 (Cosine)、欧式距离 (Euclidean Dis⁃

tance)、曼哈顿距离 (Manhattan Distance)

【17】

、切比雪夫距离

(Chebyshev Distance)、布雷柯蒂斯相异性 (Bray-Curtis Dis⁃

similarity)

【18】

等，其中曼哈顿距离、欧式距离和切比雪夫距

离可以统一表示为明可夫斯基距离(Minkowski Distance)。

这种方法是将术语表示成向量后再进行计算，这里的向量

是指通过词频-逆文档频率(Term Frequency-Inverse Docu⁃

ment Frequency，TF-IDF)模型将两个文本分别表示为



和



的矢量形式

【19】

，或者直接通过最简单的词集模型(Set Of

Words，SOW)将文本表示为独热向量(One-hot vector)形式，这

里的向量都不具有语义信息，仅是简单地将文本表示为向量

形式以便于运算。除此之外，通过将文本向量表示看作是不

同的变量然后使用统计相关系数 Pearson、Spearman 和 Kend⁃

all 也可以计算文本相似性

【5】

。下面我们通过表格的方式将

上述一些重要的方法及定义列入表 1中。

基于散列算法的文本相似度方法包括局部敏感哈希

(Locality Sensitive Hashing，LSH)算法和局部保留哈希(Locali⁃

ty Preserving Hashing，LPH)算法，这两类算法主要针对最近

邻搜索问题。其中 Simhash 和 Minhash 是两个广泛应用于大

规模数据处理的局部敏感散列算法

【20】

。传统的 Hash 算法是

将原始文本随机映射成唯一的签名值，根据签名值只能判断

方法

LCS

Hamming

N-Gram

Jaccard

Dice

Overlap

Matching

Cosine

Manhattan

Euclidean

Chebyshev

Bray-Curtis

定义

两个字符串之间由一个转变为另一个所需的最少编辑操作次数，包括插入、删除和替换。

两个字符串的最长公共连续子序列，可以计算其与较短或较长的字符串的长度的比值(LCSR)。

两个等长字符串在对应位置上不同的数量，主要用于通信编码领域。

两个文本的相同 N 元组数量与总 N元组数量的比值，对象可以是字符的 N元组或术语的N 元组。

jacc

= |A ⋂ B|/|A ⋃ B|

，集合思想，两个文本中相同词语的个数与全部非重复词语的个数的比值。

dice

= 2*|A ⋂ B|/(|A| + |B|)

，集合思想，两个文本中相同词语个数的二倍与各个文本非重复词语个数之和的比值。

over

= |A ⋂ B|/ min(|A|,|B|)

，集合思想，如果两个文本一个是另一个的子集，则认为两个文本是完全相似的。

非常简单的基于向量的方法，只计算两个向量相同项都是非零的个数。

cos

= x



⋅ y



/(||x



|| ⋅ ||y



||)

，计算两个向量的夹角的余弦值。

M(x



∑

i = 1

- y

| ，两个向量对应坐标值的差异之和。

E(x



∑

i = 1

- y

)

，两个向量对应坐标值之间的平方差之和的平方根。

C(x



)= max

(|x

- y

，两个向量对应坐标值差的绝对值的最大值。

B(x



∑

i = 1

- y

∑

i = 1

+ y

| ,常用于生物信息学中表征两个群落的差异性。

表 1 表面文本相似度计算方法

情报科学

第第 3737 卷卷第第 33 期期 20192019 年年 33 月月

综

述

述·

-- 159

剩余10页未读，继续阅读

评论收藏

内容反馈

FloritaScarlett

粉丝: 28
资源: 308

文本相似度计算方法研究综述_王春柳1

评论0

最新资源

文本相似度计算方法研究综述_王春柳1

评论0

文本相似度计算方法研究综述1

语义相似度算法研究综述

基于语义相似度的中文文本相似度算法研究

文本语义相似度计算方法研究及应用

需求检查单（B,C组）_王春柳2

王春柳-第14周工作日志 1

王春柳-第10周工作日志 2

王春柳-第9周工作日志2

王春柳-第13周工作日志 1

基于GVSM的文本相似度算法研究

文本相似度计算研究进展综述_王寒茹1

语义相似度的计算方法研究与分析.pdf

词语相似度计算方法研究

中文短语相似度计算方法研究及应用

王春柳-第11周工作日志 1

王春柳-第7-8周工作日志2

Desktop_与博弈相关的参考硕博士论文_

6_2会议记录1

需求规格说明书_V1.3-刘超批注1

领域文本相似度计算方法研究.pdf

汉语句子相似度计算方法比对之研究

基于语义树的概念语义相似度计算方法研究

语义文本相似度计算方法_韩程程1

5_19会议记录 1

需求规格说明书_V1.2.12

5_3会议记录 2

需求规格说明书_V1.32

5_26会议记录1

最新资源