nlp之文档相似性.rar_nlp_文本相似度_根据文本的相似性聚类资源-CSDN文库

共1个文件

pdf：1个

版权申诉

nlp

文本相似度

140 浏览量 2022-09-21 02:52:45 上传评论收藏 1.13MB RAR 举报

资源详情

资源评论

资源推荐

收起资源包目录

nlp之文档相似性.rar （1个子文件）

nlp之文档相似性.pdf 1.24MB

NLP之文档相似性

前言

在自然语言处理过程中，经常会涉及到如何度量两个文本之间的相似性，我们都知道文本是一种

高维的语义空间，如何对其进行抽象分解，从而能够站在数学角度去量化其相似性。而有了文本

之间相似性的度量方式，我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模

型的概率方法进行文本之间的聚类分析；另一方面，我们也可以利用文本之间的相似性对大规模

语料进行去重预处理，或者找寻某一实体名称的相关名称（模糊匹配）。而衡量两个字符串的相

似性有很多种方法，如最直接的利用hashcode，以及经典的主题模型或者利用词向量将文本抽象

为向量表示，再通过特征向量之间的欧式距离或者皮尔森距离进行度量。本文围绕文本相似性度

量的主题，从最直接的字面距离的度量到语义主题层面的度量进行整理总结，并将平时项目中用

到的文本相似性代码进行了整理，如有任何纰漏还请指出，我会第一时间改正^v^。（ps.平时用

的Java和scala较多，本文主要以Java为例。）

字面距离

提到如何比较两个字符串，我们从最初编程开始就知道：字符串有字符构成，只要比较比较两个

字符串中每一个字符是否相等便知道两个字符串是否相等，或者更简单一点将每一个字符串通过

哈希函数映射为一个哈希值，然后进行比较。但是这种方法有一个很明显的缺点，就是过

于“硬”，对于相似性的度量其只有两种，0不相似，1相似，哪怕两个字符串只有一个字符不相等

也是不相似，这在NLP的很多情况是无法使用的，所以下文我们就“软”的相似性的度量进行整理，

而这些方法仅仅考虑了两个文本的字面距离，无法考虑到文本内在的语义内容。

common lang库

文中在部分代码应用中使用了Apache提供的common lang库，该库包含很多Java标准库中没有

的但却很实用的函数。其maven引用如下：

<groupId>org.apache.commons</groupId>

<artifactId>commons-lang3</artifactId>

相同字符数

在传统的字符串比较过程中，我们考虑字符串中每个字符是否相等，并且考虑了字符出现的顺

序，如果不考虑字符出现的顺序，我们可以利用两个文本之间相同的字符数量，很简单不再赘

述，可以利用common lang中的getFuzzyDistance：

int dis = StringUtils.getFuzzyDistance(term, query, Locale.CHINA);

莱文斯坦距离(编辑距离)

定义

我们在学习动态规划的时候，一个很经典的算法便是计算两个字符串的编辑距离，即：

莱文斯坦距离，又称Levenshtein距离，是编辑距离（edit distance）的一种。指两个字串之

间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个

字符，插入一个字符，删除一个字符。

例如将kitten一字转成sitting：

1. sitten （k→s）

2. sittin （e→i）

3. sitting （→g）

那么二者的编辑距离为3。

俄罗斯科学家弗拉基米尔·莱文斯坦在1965年提出这个概念。

实现方式

我们可以利用common lang中StringUtils的函数来计算：

int dis = StringUtils.getLevenshteinDistance(s1, s2);

//实现public static int getLevenshteinDistance(CharSequence s,

CharSequence t) {

if (s == null || t == null) {

throw new IllegalArgumentException("Strings must not be null");

}

int n = s.length(); // length of s

int m = t.length(); // length of t

if (n == 0) {

return m;

} else if (m == 0) {

return n;

}

if (n > m) {

// swap the input strings to consume less memory

final CharSequence tmp = s;

s = t;

t = tmp;

n = m;

m = t.length();

}

int p[] = new int[n + 1]; //'previous' cost array, horizontally

int d[] = new int[n + 1]; // cost array, horizontally

int _d[]; //placeholder to assist in swapping p and d

// indexes into strings s and t

int i; // iterates through s

int j; // iterates through t

char t_j; // jth character of t

int cost; // cost

for (i = 0; i <= n; i++) {

p[i] = i;

}

for (j = 1; j <= m; j++) {

t_j = t.charAt(j - 1);

d[0] = j;

for (i = 1; i <= n; i++) {

cost = s.charAt(i - 1) == t_j ? 0 : 1;

// minimum of cell to the left+1, to the top+1, diagonally left and

up +cost

d[i] = Math.min(Math.min(d[i - 1] + 1, p[i] + 1), p[i - 1] + cost);

}

// copy current distance counts to 'previous row' distance counts

_d = p;

p = d;

d = _d;

}

// our last action in the above loop was to switch d and p, so p

now

// actually has the most recent cost counts

return p[n];

}

Jaro距离

定义

Jaro Distance也是字符串相似性的一种度量方式，也是一种编辑距离，Jaro 距离越高本文相似

性越高;而Jaro–Winkler distance是Jaro Distance的一个变种。据说是用来判定健康记录上两

个名字是否相同，也有说是是用于人口普查。从最初其应用我们便可看出其用法和用途，其定义

如下：

其中

是匹配数目（保证顺序相同）

字符串长度

是换位数目

其中t换位数目表示：两个分别来自S1和S2的字符如果相距不超过

我们就认为这两个字符串是匹配的；而这些相互匹配的字符则决定了换位的数目t，简单来说就是

不同顺序的匹配字符的数目的一半即为换位的数目t，举例来说，MARTHA与MARHTA的字符都

是匹配的，但是这些匹配的字符中，T和H要换位才能把MARTHA变为MARHTA,那么T和H就是不

同的顺序的匹配字符，t=2/2=1。

而Jaro-Winkler则给予了起始部分就相同的字符串更高的分数，他定义了一个前缀p，给予两个字

符串，如果前缀部分有长度为的部分相同，则Jaro-Winkler Distance为：

是两个字符串的Jaro Distance

是前缀的相同的长度，但是规定最大为4

则是调整分数的常数，规定不能超过0.25，不然可能出现dw大于1的情况，Winkler将这

个常数定义为0.1

举个简单的例子：

计算的距离

我们利用可以得到一个匹配窗口距离为3，图中黄色部分便是匹配窗口，

雅思考试时间安排其中1表示一个匹配，我们发现两个X并没有匹配，因为其超出了匹配窗口的距

离3。我们可以得到：

其Jaro score为：

而计算Jaro–Winkler score，我们使用标准权重，其结果如下：

实现方式

同样我们可以利用common lang中的getJaroWinklerDistance函数来实现，注意这里实现的是

Jaro–Winkler distance

double dis =

StringUtils.getJaroWinklerDistance(reviewName.toLowerCase(),

newsName.toLowerCase());

//实现public static double getJaroWinklerDistance(final CharSequence

first, final CharSequence second) {

final double DEFAULT_SCALING_FACTOR = 0.1; //标准权重

if (first == null || second == null) {

throw new IllegalArgumentException("Strings must not be null");

}

final double jaro = score(first,second); // 计算Jaro score

final int cl = commonPrefixLength(first, second); // 计算公共前缀长度

final double matchScore = Math.round((jaro + (DEFAULT_SCALING_FACTOR

* cl * (1.0 - jaro))) *100.0)/100.0; // 计算 Jaro-Winkler score

return matchScore;

}

应用

在Wetest舆情监控中，我们在找寻游戏名简称和全称的对应关系时便使用到了Jaro-Winkler

score进行衡量，其中我们将Jaro分数大于0.6的认为是相似文本，之后在总的相似文本中提取最

相似的作为匹配项，实现效果还不错：

其中冒号左边是待匹配项，右边是匹配项<游戏名词频，Jaro-Winkler score>，Jaro-Winkler

score较高的一般都是正确的匹配项。

SimHash

定义

SimHash是一种局部敏感hash，它也是Google公司进行海量网页去重使用的主要算法。

传统的Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值，原理上仅相当于伪随机数

产生算法。传统的hash算法产生的两个签名，如果原始内容在一定概率下是相等的；如果不相

等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产

生的签名也很可能差别很大。所以传统的Hash是无法在签名的维度上来衡量原内容的相似度，而

SimHash本身属于一种局部敏感哈希算法，它产生的hash签名在一定程度上可以表征原内容的相

似度。

我们主要解决的是文本相似度计算，要比较的是两个文章是否相似，当然我们降维生成了hash签

名也是用于这个目的。看到这里估计大家就明白了，我们使用的simhash就算把文章中的字符串

变成 01 串也还是可以用于计算相似度的，而传统的hash却不行。

评论收藏

内容反馈

版权申诉

Kinonoyomeo

粉丝: 75
资源: 1万+

nlp之文档相似性.rar_nlp_文本相似度

评论0

最新资源

nlp之文档相似性.rar_nlp_文本相似度

评论0

海量文档相似性计算引擎方案

基于Java实现的文本相似度计算工具包，可用于文本相似度计算、情感分析等任务，开箱即用

易语言源码易语言文本相似度判断模块源码.rar

易语言源码易语言文本相似度算法源码.rar

易语言源码易语言文本相似算法模块源码.rar

Levenshtein.rar 文本相似度比较

易语言源码易语言向量法计算文本相似度源码.rar

chatbot_by_similarity:根据文本相似度实现问答的聊天机器人（简单版）

计算两个词语的相似度

bio_CW4.rar_数据相似性_文档相似度

易语言源码易语言快速计算文本相似度源码.rar

20110208-RWR.rar_RWR 随机游走_python 相似性_rwr_网络 随机游走_随机游走 相似

awesome-document-similarity:精选的文档相似性度量资源清单（论文，教程，代码等）

语义相似性算法演化论文

孪生网络（SiameseNetwork）在句子语义相似度计算中的应用

text2vec：text2vec，中文文本到vetor。（文本向量化表示工具，包括词向量化，句子向量化，句子相似度计算）

中文预训练ALBERT模型.zip

毕业设计：python文本相似度计算系统（源码 + 数据库 + 说明文档）

TwoImageMatch.rar_图像 协方差_图片匹配_图片相似性_相似系数_相关性系数

ssim.rar_site:www.pudn.com_图像 相似_图像相似性_基于ssim_相似性

siftDemoV4.rar_sift 相似性_sift相似_关键点匹配_图片相似性_特征点 匹配

ats-corpus:历史文本的语料库，用于检测相似的文档和文本重用

BertSimilarity：使用Google的BERT算法计算两个句子的相似度。利用Bert计算句子相似度。语义相似度计算

nlp：用于Golang中自然语言处理和语义分析的选定机器学习算法

相似度：相似度：相似度计算工具包，java编写。用于词，短语，句子，词法分析，情感分析，语义分析等相关的相似度计算

最新资源

20110208-RWR.rar_RWR 随机游走_python 相似性_rwr_网络随机游走_随机游走相似

TwoImageMatch.rar_图像协方差_图片匹配_图片相似性_相似系数_相关性系数

ssim.rar_site:www.pudn.com_图像相似_图像相似性_基于ssim_相似性

siftDemoV4.rar_sift 相似性_sift相似_关键点匹配_图片相似性_特征点匹配