没有合适的资源?快使用搜索试试~ 我知道了~
基于BERT和多相似度融合的句子对齐方法研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 200 浏览量
2022-06-26
14:58:50
上传
评论
收藏 313KB DOCX 举报
温馨提示
试读
15页
基于BERT和多相似度融合的句子对齐方法研究.docx
资源推荐
资源详情
资源评论
1 引言
平行语料是由源语言文本和与其互译的目标语言文本构成的双语或多语语
料。平行语料可以划分为词汇级、短语级、句子级、段落级和篇章级。平行语
料中蕴含着丰富的语言学知识可以为机器翻译
、双语词典构建
、词义消歧、
跨 语 言 信 息 检 索
等 多 个 自 然 语 言 处 理 (
)任务提供数据支撑大规模高质量的平行语料能够极大地提升
这些 任务的性能。人工构建平行语料库虽然能保证数据的质量 但是数据不
易形成规模且代价昂贵因此人们常借助计算机技术收集平行语料这样更加省时
省力且能保证规模化生产。此外神经机器翻译的出现使机器翻译译文质量达到
新的高度从机器翻译译文中提取特征、基于多翻译引擎构建平行语料库也是当
下平行语料库建设的发展趋势
。
句子对齐是指从不同语言表述的相同或可比较内容的文本中利用句子之间
的特征找到最优的映射关系从而找出互译句对的过程。在平行语料库的构建过
程中篇章级或段落级的平行语料较为容易获取将篇章或段落的源语言端和目标
语言端分别切分成句子再使用句子对齐技术得到平行句对进而通过词对齐技术
即可获取词汇级或短语级的平行语料。句子对齐性能的优劣决定了句子级平行
语料库的质量和规模。因此句子对齐具有重要的应用价值对基于语料库的
任务具有重要的研究助益。
句子对齐技术主要有以下 种:
()基于句子长度的方法。该方法根据句子中的字符长度、单词数量或字
节数计算双语句对的相似度
特征提取简单在同语系的语言对上对齐性能较好
但忽略了其他语义特征。
()基于互译信息的方法。该方法通过聚焦词典中的词汇互译信息或机器
翻译引擎得到的句子互译信息进行句子对齐准确率虽高但对齐速度慢对齐效果
严重依赖于双语词典的规模质量或翻译引擎的性能。
()混合方法。该方法将长度方法和互译信息方法混合起来先采用基于句
子长度的方法得到若干个候选双语句对再利用基于互译信息的方法检验候选双
语句对的相似性从中挑选出打分最高者作为最优句对该方法平衡了对齐准确度
和对齐效率之间的关系具备较强的鲁棒性。
()基于神经网络的方法。这类方法是目前的主流先在句子级别进行建模
将源语言句子与目标语言句子分别映射成为固定长度的向量表示再根据向量进
行相似度计算判断源语言句子和目标语言句子是否对齐。该方法得益于神经网
络强大的表征能力句子对齐的准确率与效率均优于传统方法但是对句子的向量
表示依赖于预训练模型。
本 文 在 句 子 对 齐 方 法 中 引 入 ( ! !
"#$ #$)预训练模型将待对齐的双语句对通过机
器翻译技术翻译得到各自的译文进而对源语言句子与译文、目标语言句子与译
文通过双向 #$ 提取特征并融合 % 得分、余弦相似度和曼哈顿距
离三种相似度算法进行句子对齐。实验结果表明本文方法能够更好地进行句子
对齐、获得高质量的平行语料为后续基于语料库的跨语言信息检索、机器翻译
和其他自然语言处理任务提供重要的研究支持。
2 相关工作
句子对齐技术可分为 种分别是基于句子长度的方法、基于互译信息的方
法、混合方法以及目前流行的基于神经网络的方法。
()基于句子长度的方法最早由 & 等
'
和 ( 等
提出均以源语言
文本中句子长度与目标语言文本中的句子长度有很强的正相关为理论依据即源
语言文本中长句子与目标语言文本中长句子匹配的概率更大源语言文本中短句
子与目标语言文本中短句子匹配的概率更大。二者不同之处在于 & 等
'
是以
源语言与目标语言文本中的字符为单位统计句子的长度通过建立概率模型计算
对齐概率进而实现句子对齐)而 ( 等
是以源语言与目标语言文本中的单词
数为单位计算句子长度通过标记主要锚点和次要锚点利用动态规划完成句子对
齐。此外张霞等
以源语言与目标语言文本中的字节、实词、单词、动词、名词、
形容词为单位计算句子长度实验结果表明以单词为单位统计句子长度在句子对
齐任务中获得的准确率和召回率最佳。基于句子长度的方法的弊端在于仅利用
句子长度等浅层信息特征未充分利用语言学知识且对齐过程中若出现了错误的
对齐结果后续的对齐结果均会受到影响。
()基于互译信息的方法利用互译信息考量源语言句子和目标语言句子的
对齐概率。互译信息可以是同源词、双语词典或机器翻译系统。 *$! 等
首
次将同源词引入句子对齐任务。同源词即为两种相近语言之间外在拼写上有着
相 似 关 系 的 数 字 、 字 母 符 号 、 标 点 、 字 母 词 等 易 于 被 计 算 机 识 别 的 字 符 。
+,,
基于同源词提出了 +,- 对齐方法因为同源词的字符串有很多相
似的字符组成通过对互译文本进行字符上的对齐路径搜索即可得到匹配的词语。
./ 等
认为目标语言文本中包含源语言文本的互译词汇最多的句子为最佳对齐
句子即根据文本中互译词汇分布的相似性由词水平的偏对齐推导句子对齐反过
来再用句子对齐修正词对齐反复迭代直至算法收敛。+,
在 ./ 等
对齐算
法的基础上进行改进认为对齐句对中名词、动词、形容词、数词和引号等关键
词性标注的数量是接近的遂利用模拟退火算法利用每个句对中双语的关键词性
标注的差衡量双语句对的对齐程度。*, 等
使用提前训练好的机器翻译
系统来翻译目标语言句子计算源语言文本与机器翻译后的目标语言句子的译文
之间的 % 值相似度找到可靠的锚点利用动态规划得到候选对齐选择 %
得分最大且不违反句子单调顺序的句对作为最优句对。基于互译信息的句子对
齐方法充分利用了句对中互译的词汇知识从而生成准确度更高的平行句对同时
也说明适当地引入外部资源有利于判断句子对齐准确率高但对齐速度慢、效率
低。
()混合方法将基于互译信息的方法与基于句子长度的方法相结合实现句
子对齐。0
创建日期、机构名等特殊词表综合考虑句子长度和词汇信息进行
句子对齐先单独使用基于句子长度的方法再利用基于互译信息的方法进行校正
反复迭代直至对齐。1
使用基于句子长度的方法从待对齐文本中筛选 2
对齐类型的句对用来训练 31(31,)模型生成
双语词典再通过词典中的互译信息得到更高质量的句对。1
提出加入额外词
典 的 +,$" 算 法 参 考 词频 2 逆 向文 件频 率 ( $45/236
7$45/ 42374)模型为频率较低的单词翻译赋予较高的权重定
义了片段的相似度并将一个对齐中各片段相似度的总和作为该对齐的得分通过
动态规划算法取得分最高的对齐作为最优对齐。 等
'
在 1
的基础上提出
42+,$" 模型该方法基于双语文本越短在句子对齐时需要进行组合的
句对就越少需要计算的代价就越小的理论采用基于句子长度的方法将双语文本
切分成更小的文本片段再利用 +,$" 模型依次对小文本进行句子对齐在
不降低句子对齐性能的前提下提升了运行速度。8 等
提出一种半监督的句
子对齐方法先获得初始对齐句对以确保双语一致性)然后依据在一种语言中的高
度亲和力在其对应关系中往往具有类似的相关性定义了单语一致性将两者统一
纳入对齐评分中选择最佳对齐匹配。混合方法在利用长度和互译信息后获得了
更加可靠、精确的对齐结果。
()随着深度学习在自然语言处理领域的广泛应用基于神经网络的句子对
齐方法成为主流研究方法。&9 等
将句子对齐看作二分类任务提出使用
双向循环神经网络将句子编码成固定大小的向量表示将其输入全连接层并通过
*$! 激活函数估计句对互为翻译的概率设定阈值进行句子对齐。&6 等
直接使用单词的词嵌入通过余弦相似度或欧氏距离计算词对间相似度得到相
似度矩阵动态地组成一个固定维度矩阵输送到卷积神经网络中进行句对分类得
到对齐句对。$ 等
从平行语料库中学习源语言和目标语言的句子嵌入
向量使用平均的多语言词嵌入计算所有句子的联合嵌入。该方法分两步:第一
步使用多语言句子嵌入识别与源句子最接近的 N 个目标句子)第二步使用机器
翻译评估指标 % 和二进制分类器从 N 个候选目标句子中选择最佳对齐句子。
& 等
构造双语双编码器模型生成双语句子嵌入然后对这两个嵌入向量计算
点积得分选择合格的句子对齐。: 等
先训练一个共享编码器的中英双向
神经机器翻译系统每个句子由最后的编码器状态表示再利用表示出的句子向量
的余弦相似性得分找出高质量的双语文本 达到句子对齐的目的。*,(;
训
练了一种多语言编码器2解码器神经机器翻译架构该架构共享相同的编码器和解
码器通过计算字节对编码(/!)词汇表共享编码器在输
入句子后通过连接目标语言的 37 共享解码器联合多语言句子嵌入的余弦相似度
分数过滤有噪声的平行数据。以上这些方法均使用神经机器翻译的框架学习两
种或多种语言的联合句子表示形式通过平均单词嵌入计算余弦相似度比较句子
嵌入的相似度。此类方法对句子的向量表示依赖于预训练模型。现有句子对齐
方 法 中 使 用 的 预 训 练 模 型 有 0!< 、 基 于 语 言 模 型 的 词 向 量 模 型
( $=!! #$ 1!1> ) 、 生 成 式 预 训 练 模 型
(&62 & )等。0!< 为 最早的预训练模型
每一个词只有一个向量表示未考虑词汇的上下文信息无法解决一词多义的问
题)1> 模型能根据上下文动态调整词嵌入可以解决一词多义但使用长短期
记忆网络(*,2 $1$/* 1)方式提取特征这种向量拼接的
方式导致融合上下文特征的能力较弱)& 模型使用单向的 #$ 进行特
征提取但只能根据上文预测下文词。
与上述方法不同之处在于本文提出了基于 和多相似度融合的句子对
齐方法。该方法利用双向 #$ 的 模型进行预训练解决了句子表
示中一词多义的问题而且双向掩码预测增强了句子特征的提取能力。通过神经
机器翻译模型将待对齐语料进行双向翻译融合了基于互译信息的句子对齐方法
的优势并设计了多个双向相似度的计算进行句子对齐。
3 基于 BERT 和多相似度融合的句子对齐模型
?神经机器翻译和 预训练
剩余14页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3675
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功