第
34
卷 第
1
期
2019
年
2
月
北
京信息科技大学学报
Journal of Beijing Information Science & Technology University
Vol.34 No.1
Feb.2019
文
章 编 号
: 1674
-
6864( 2019) 01
-
0068
-
07 DOI: 10. 16508 /j .cnki .11
-
5866 /n.2019. 01. 013
文本相似度计算研究进展综述
王
寒茹
,
张仰森
(
北京信息科技大
学 计算机学院
,
北京
100192)
摘 要
:
相似度计算是自然语言处理工作的基石
。
随着自然语言处理技术的发展
,
相
似
度计算的研究价值和应用价值突显
。
现有的计算方法因其复杂度和精确度的问题
,
与现实应用的
需求并不匹配
。
针对现有需求
,
对于不同粒度的文本
,
研究出一套适合大规模实际应用的相似度
计算方法体系迫在眉睫
。
从方法论的角度
,
对目前主流的相似度计算方法进行总结
,
介绍了不同
粒度的文本相似度计算的差别以及近几年的研究进展
,
总结了目前相似度计算方向存在的问题
,
并对发展趋势进行了展望
。
关 键 词
:
距离公式
;
相似度计算方法
;
词语相似度
;
句子相似度
;
篇章相似度
中图分类号
: TP 391. 1
文献标志码
: A
A survey on research progress of text similarity calculation
WANG Hanru,ZHANG Yangsen
( Computer School,Beijing Information Science & Technology University,Beijing 100101,China)
Abstract: Similarity calculation is the cornerstone of natural language processing. With the
development of natural language processing technology,the research value and application value of
similarity calculation become more and more important. However,the existing calculation methods do not
match the requirements of real-world applications due to their complexity and accuracy. It is urgent to
study a set of similarity calculation method system suitable for large
-
scale practical application for
different granularity texts. From the perspective of methodology,this paper firstly expounds the current
mainstream similarity calculation method,and then introduces the difference of text similarity calculation
with different granularity and the research progress in recent years. Finally it summarizes the problems
existing in the current similarity calculation direction and provides an outlook of development.
Keywords: distance formula; similarity calculation method; word similarity; sentence similarity;
text similarity
收
稿日期
: 2018-09-17
基金项目
:
国家自然科学基金项目
( 61772081)
第一作者简介
:
王寒茹
,
女
,
硕士研究生
;
通讯作者
:
张仰森
,
男
,
博士
,
教授
。
0
引
言
文本相似度计算是自然语言处理任务的基石
,
对后续的文本处理起着非常关键的作用
。
文
本相似
度一般指文本在语义上的相似程度
,
被广泛应用于
自然语言处理任务的各个领域
。
在机器翻译领域
,
它可以作为翻译精确度的评价准则
;
在搜索引擎领
域
,
可用于衡量检索文本与被检索文本之间的相似
程度
;
在自动问答领域
,
可用来评定问题与答案之间
的语义匹配度
;
在抄袭检测领域
,
通过相似度计算可
以检测出两段文本的抄袭程度
;
在文本聚类方面
,
相
似度阈值可以作为聚类标准
;
在自动文摘中
,
相似度
可以反映局部信息拟合主题的程度
。
根据相似度计算方法的特点
,
文本相似度可以
分为字面匹配相似度
、
语义相似度和结构相似度
。
字面相似度一般采用
Jaccard
距离
、
最小编辑距离
、
最长公共子串等基本方法进行文本相似度计算
。
语
义相似度可以从基于统计和基于规则两方面进行考
虑
;
结构相似度计算的关键在于分析文本的句法
结构
。