基于BERT和多相似度融合的句子对齐方法研究.docx资源-CSDN文库

版权申诉

18 浏览量 2022-06-26 14:58:50 上传评论收藏 313KB DOCX 举报

【基于BERT和多相似度融合的句子对齐方法研究】在自然语言处理（NLP）领域，平行语料库起着至关重要的作用。它由源语言文本和对应的目标语言文本组成，涵盖了从词汇级到篇章级的各种语言信息，对机器翻译、双语词典构建、词义消歧和跨语言信息检索等多个任务提供了必要的数据支持。尽管人工构建平行语料库确保了质量，但成本高昂且难以规模化，因此通常采用计算机技术来收集平行语料。近年来，神经机器翻译的进展显著提高了译文质量，从而推动了从机器翻译中提取平行语料库的新方法。句子对齐作为构建平行语料库的关键步骤，旨在找出不同语言表述的相同内容之间的最佳映射关系，生成互译句对。通常，从篇章或段落级别的平行语料中切分句子，再通过句子对齐技术获得高质量的句子级平行语料，进一步通过词对齐得到词汇级或短语级平行语料。目前，句子对齐技术主要有四种方法： 1. 基于句子长度的方法：通过比较句子的字符、单词或字节数量来计算相似度，简单快速，但忽视了语义特征。 2. 基于互译信息的方法：依赖于双语词典或机器翻译引擎，准确性高但速度慢，对词典质量和翻译引擎性能敏感。 3. 混合方法：结合长度方法和互译信息，先筛选候选对，再用互译信息验证，兼顾准确性和效率。 4. 基于神经网络的方法：使用预训练模型将句子映射成向量，然后计算相似度，具有较高的准确率和效率，但依赖于预训练模型。本文提出的创新点在于引入BERT预训练模型。通过机器翻译得到待对齐双语句对的译文，然后利用双向Transformer提取源语言句子、译文、目标语言句子和译文的特征，并结合BLEU得分、余弦相似度和曼哈顿距离三种相似度算法进行句子对齐。这种方法提高了对齐质量和效率，为跨语言信息检索、机器翻译等NLP任务提供了更优质的平行语料。相关工作方面，早期的句子长度方法由Gale和Brown等人提出，它们基于源语言和目标语言句子长度的正相关性，但只利用了浅层信息。而基于互译信息的方法则通过同源词、双语词典或机器翻译系统评估对齐概率，如Simard等人的工作。这些方法各有优势和局限，如对齐错误的传播问题和对词典或翻译引擎的依赖。基于BERT和多相似度融合的句子对齐方法结合了现有技术的优点，通过深度学习模型和多模态相似度度量，提升了句子对齐的准确性和效率，为NLP领域的研究和发展提供了新思路。

资源推荐

资源详情

资源评论

1 引言

平行语料是由源语言文本和与其互译的目标语言文本构成的双语或多语语

料。平行语料可以划分为词汇级、短语级、句子级、段落级和篇章级。平行语

料中蕴含着丰富的语言学知识可以为机器翻译











、双语词典构建











、词义消歧、

跨语言信息检索











等多个自然语言处理（   

）任务提供数据支撑大规模高质量的平行语料能够极大地提升

这些  任务的性能。人工构建平行语料库虽然能保证数据的质量 但是数据不

易形成规模且代价昂贵因此人们常借助计算机技术收集平行语料这样更加省时

省力且能保证规模化生产。此外神经机器翻译的出现使机器翻译译文质量达到

新的高度从机器翻译译文中提取特征、基于多翻译引擎构建平行语料库也是当

下平行语料库建设的发展趋势











。

句子对齐是指从不同语言表述的相同或可比较内容的文本中利用句子之间

的特征找到最优的映射关系从而找出互译句对的过程。在平行语料库的构建过

程中篇章级或段落级的平行语料较为容易获取将篇章或段落的源语言端和目标

语言端分别切分成句子再使用句子对齐技术得到平行句对进而通过词对齐技术

即可获取词汇级或短语级的平行语料。句子对齐性能的优劣决定了句子级平行

语料库的质量和规模。因此句子对齐具有重要的应用价值对基于语料库的 

任务具有重要的研究助益。

句子对齐技术主要有以下  种：

（）基于句子长度的方法。该方法根据句子中的字符长度、单词数量或字

节数计算双语句对的相似度







特征提取简单在同语系的语言对上对齐性能较好

但忽略了其他语义特征。

（）基于互译信息的方法。该方法通过聚焦词典中的词汇互译信息或机器

翻译引擎得到的句子互译信息进行句子对齐准确率虽高但对齐速度慢对齐效果

严重依赖于双语词典的规模质量或翻译引擎的性能。

（）混合方法。该方法将长度方法和互译信息方法混合起来先采用基于句

子长度的方法得到若干个候选双语句对再利用基于互译信息的方法检验候选双

语句对的相似性从中挑选出打分最高者作为最优句对该方法平衡了对齐准确度

和对齐效率之间的关系具备较强的鲁棒性。

（）基于神经网络的方法。这类方法是目前的主流先在句子级别进行建模

将源语言句子与目标语言句子分别映射成为固定长度的向量表示再根据向量进

行相似度计算判断源语言句子和目标语言句子是否对齐。该方法得益于神经网

络强大的表征能力句子对齐的准确率与效率均优于传统方法但是对句子的向量

表示依赖于预训练模型。

本文在句子对齐方法中引入  （ !  !

"#$ #$）预训练模型将待对齐的双语句对通过机

器翻译技术翻译得到各自的译文进而对源语言句子与译文、目标语言句子与译

文通过双向 #$ 提取特征并融合 % 得分、余弦相似度和曼哈顿距

离三种相似度算法进行句子对齐。实验结果表明本文方法能够更好地进行句子

对齐、获得高质量的平行语料为后续基于语料库的跨语言信息检索、机器翻译

和其他自然语言处理任务提供重要的研究支持。

2 相关工作

句子对齐技术可分为  种分别是基于句子长度的方法、基于互译信息的方

法、混合方法以及目前流行的基于神经网络的方法。

（）基于句子长度的方法最早由 & 等

'





和 ( 等







提出均以源语言

文本中句子长度与目标语言文本中的句子长度有很强的正相关为理论依据即源

语言文本中长句子与目标语言文本中长句子匹配的概率更大源语言文本中短句

子与目标语言文本中短句子匹配的概率更大。二者不同之处在于 & 等

'





是以

源语言与目标语言文本中的字符为单位统计句子的长度通过建立概率模型计算

对齐概率进而实现句子对齐)而 ( 等







是以源语言与目标语言文本中的单词

数为单位计算句子长度通过标记主要锚点和次要锚点利用动态规划完成句子对

齐。此外张霞等







以源语言与目标语言文本中的字节、实词、单词、动词、名词、

形容词为单位计算句子长度实验结果表明以单词为单位统计句子长度在句子对

齐任务中获得的准确率和召回率最佳。基于句子长度的方法的弊端在于仅利用

句子长度等浅层信息特征未充分利用语言学知识且对齐过程中若出现了错误的

对齐结果后续的对齐结果均会受到影响。

（）基于互译信息的方法利用互译信息考量源语言句子和目标语言句子的

对齐概率。互译信息可以是同源词、双语词典或机器翻译系统。 *$! 等







首

次将同源词引入句子对齐任务。同源词即为两种相近语言之间外在拼写上有着

相似关系的数字、字母符号、标点、字母词等易于被计算机识别的字符。

+,,







基于同源词提出了 +,- 对齐方法因为同源词的字符串有很多相

似的字符组成通过对互译文本进行字符上的对齐路径搜索即可得到匹配的词语。

./ 等







认为目标语言文本中包含源语言文本的互译词汇最多的句子为最佳对齐

句子即根据文本中互译词汇分布的相似性由词水平的偏对齐推导句子对齐反过

来再用句子对齐修正词对齐反复迭代直至算法收敛。+,







在 ./ 等







对齐算

法的基础上进行改进认为对齐句对中名词、动词、形容词、数词和引号等关键

词性标注的数量是接近的遂利用模拟退火算法利用每个句对中双语的关键词性

标注的差衡量双语句对的对齐程度。*, 等







使用提前训练好的机器翻译

系统来翻译目标语言句子计算源语言文本与机器翻译后的目标语言句子的译文

之间的 % 值相似度找到可靠的锚点利用动态规划得到候选对齐选择 %

得分最大且不违反句子单调顺序的句对作为最优句对。基于互译信息的句子对

齐方法充分利用了句对中互译的词汇知识从而生成准确度更高的平行句对同时

也说明适当地引入外部资源有利于判断句子对齐准确率高但对齐速度慢、效率

低。

（）混合方法将基于互译信息的方法与基于句子长度的方法相结合实现句

子对齐。0







创建日期、机构名等特殊词表综合考虑句子长度和词汇信息进行

句子对齐先单独使用基于句子长度的方法再利用基于互译信息的方法进行校正

反复迭代直至对齐。1







使用基于句子长度的方法从待对齐文本中筛选 2

对齐类型的句对用来训练 31（31,）模型生成

双语词典再通过词典中的互译信息得到更高质量的句对。1







提出加入额外词

典的 +,$" 算法  参考词频 2 逆向文件频率（ $45/236

7$45/ 42374）模型为频率较低的单词翻译赋予较高的权重定

义了片段的相似度并将一个对齐中各片段相似度的总和作为该对齐的得分通过

动态规划算法取得分最高的对齐作为最优对齐。 等

'





在 1







的基础上提出

42+,$" 模型该方法基于双语文本越短在句子对齐时需要进行组合的

句对就越少需要计算的代价就越小的理论采用基于句子长度的方法将双语文本

切分成更小的文本片段再利用 +,$" 模型依次对小文本进行句子对齐在

不降低句子对齐性能的前提下提升了运行速度。8 等







提出一种半监督的句

子对齐方法先获得初始对齐句对以确保双语一致性)然后依据在一种语言中的高

度亲和力在其对应关系中往往具有类似的相关性定义了单语一致性将两者统一

纳入对齐评分中选择最佳对齐匹配。混合方法在利用长度和互译信息后获得了

更加可靠、精确的对齐结果。

（）随着深度学习在自然语言处理领域的广泛应用基于神经网络的句子对

齐方法成为主流研究方法。&9 等







将句子对齐看作二分类任务提出使用

双向循环神经网络将句子编码成固定大小的向量表示将其输入全连接层并通过

*$! 激活函数估计句对互为翻译的概率设定阈值进行句子对齐。&6 等







直接使用单词的词嵌入通过余弦相似度或欧氏距离计算词对间相似度得到相

似度矩阵动态地组成一个固定维度矩阵输送到卷积神经网络中进行句对分类得

到对齐句对。$ 等







从平行语料库中学习源语言和目标语言的句子嵌入

向量使用平均的多语言词嵌入计算所有句子的联合嵌入。该方法分两步：第一

步使用多语言句子嵌入识别与源句子最接近的 N 个目标句子)第二步使用机器

翻译评估指标 % 和二进制分类器从 N 个候选目标句子中选择最佳对齐句子。

& 等







构造双语双编码器模型生成双语句子嵌入然后对这两个嵌入向量计算

点积得分选择合格的句子对齐。: 等







先训练一个共享编码器的中英双向

神经机器翻译系统每个句子由最后的编码器状态表示再利用表示出的句子向量

的余弦相似性得分找出高质量的双语文本 达到句子对齐的目的。*,(;







训

练了一种多语言编码器2解码器神经机器翻译架构该架构共享相同的编码器和解

码器通过计算字节对编码（/!）词汇表共享编码器在输

入句子后通过连接目标语言的 37 共享解码器联合多语言句子嵌入的余弦相似度

分数过滤有噪声的平行数据。以上这些方法均使用神经机器翻译的框架学习两

种或多种语言的联合句子表示形式通过平均单词嵌入计算余弦相似度比较句子

嵌入的相似度。此类方法对句子的向量表示依赖于预训练模型。现有句子对齐

方法中使用的预训练模型有 0!< 、基于语言模型的词向量模型

（ $=!!  #$    1!1> ）、生成式预训练模型

（&62 & ）等。0!< 为  最早的预训练模型

每一个词只有一个向量表示未考虑词汇的上下文信息无法解决一词多义的问

题)1> 模型能根据上下文动态调整词嵌入可以解决一词多义但使用长短期

记忆网络（*,2 $1$/* 1）方式提取特征这种向量拼接的

方式导致融合上下文特征的能力较弱)& 模型使用单向的 #$ 进行特

征提取但只能根据上文预测下文词。

与上述方法不同之处在于本文提出了基于  和多相似度融合的句子对

齐方法。该方法利用双向 #$ 的  模型进行预训练解决了句子表

示中一词多义的问题而且双向掩码预测增强了句子特征的提取能力。通过神经

机器翻译模型将待对齐语料进行双向翻译融合了基于互译信息的句子对齐方法

的优势并设计了多个双向相似度的计算进行句子对齐。

3 基于 BERT 和多相似度融合的句子对齐模型

?神经机器翻译和  预训练

剩余14页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 4451
资源: 1万+

基于BERT和多相似度融合的句子对齐方法研究.docx

Kaggle文本语义相似度计算Top5解决方案分享.docx

基于BERT-BiGA模型的标题党新闻识别研究.docx

基于python的文本相似度计算系统源码数据库.docx

基于BERT-AWC的文本分类方法研究.docx

基于Bert的两句话分类器python源码+文档说明(语义相似度，句向量生成).zip

融合互注意力机制与BERT的中文问答匹配技术研究.docx

基于python的(bert)深度学习文本相似度检测系统设计.zip

基于python+django的(bert)深度学习文本相似度检测系统设计的实现.zip

TextMatch-基于Pytorch的，中文语义相似度匹配模型（ABCNN，Albert，Bert，BIMPM，....zip

毕业设计：Python （bert）深度学习文本相似度检测系统设计（源码 + 数据库）

基于BERT阅读理解框架的司法要素抽取方法.docx

BertSimilarity：使用Google的BERT算法计算两个句子的相似度。利用Bert计算句子相似度。语义相似度计算

基于ChatGPT技术的对话生成与结构化知识融合方法研究.docx

基于BERT-TextCNN的临床试验疾病亚型识别研究.docx

基于MRC的威胁情报实体识别方法研究.docx

特征融合的中文专利文本分类方法研究.docx

基于预训练模型的多标签专利分类研究.docx

基于ChatGPT技术的对话质量评估与自动纠错方法研究.docx

基于ElasticSearch和语义相似度匹配的教学资源搜索策略.docx

基于多模态融合的非遗图片分类研究.docx

基于多模型融合的警情要素提取.docx

基于torch transformers 直接加载bert预训练模型计算句子相似度

基于孪生BERT网络的科技文献类目映射.docx

BERT模型的主要优化改进方法研究综述.docx

多模态情感分析-基于BERT+ResNet的多种融合方法

基于python的文本相似度计算系统(1).zip

基于RoBERTa-CRF的古文历史事件抽取方法研究.docx

基于BERT模型的科技政策文本分类研究.pdf

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

最新资源