基于多注意力机制的维吾尔语人称代词指代消解.docx资源-CSDN文库

版权申诉

134 浏览量 2023-02-23 16:53:50 上传评论收藏 333KB DOCX 举报

资源推荐

资源详情

资源评论

指代(Anaphora)作为一种常见的语言现象, 广泛存在于自然语言的表达之中. 它对语言

的简化表达、主题的突出性描述和语言表达连贯性起着重要的作用. 对指代成分准确无歧

义的消解有助于机器分析和语篇理解

[1]

. 在语言学中, 指代词称为照应语(Anaphor), 用于指

向另一个语言单位, 被指代词称为先行语(Antecedent), 用于被指向的语言单位, 指代消解

(Anaphora Resolution)就是确定照应语所指代的先行语的过程

[2]

. 维吾尔语人称代词指代消

解是研究人称代词与句中名词和名词性短语的指代关系, 图 1 给出维吾尔语人称代词指代

消解例句.

图 1 维吾尔语人称代词指代消解例句

Fig. 1 The example of Uyghur personal pronoun anaphora resolution

下载: 全尺寸图片幻灯片

如果一个人称代词存在指代关系, 那么它与相关文本中的一个或多个提及的名词或名

词性短语关联. 本句中" (吾斯英)" 和" (他)" 存在指代关系, " (布

葛热汗)" 和" (他)" 不存在指代关系.

近年来, 随着深度学习技术在语音识别、计算机视觉、图像识别等领域的重大突破,

学者们尝试将深度学习模型应用于自然语言处理任务中. 例如 Kim 使用卷积神经网络

(Convolutional neural network, CNN)进行句子建模, 解决情感分类任务

[3]

, Irsoy 等使用循环神

经网络(Recurrent neural network, RNN)进行意见分析

[4]

, Tai 等使用长短时记忆网络(Long

short term memory network, LSTM)解决情感分类问题

[5]

, 这些基于深度学习的方法在自然语

言处理任务中取得了比以往研究更好的分类效果.

指代消解作为自然语言处理一个重要子任务, 深度学习模型在指代消解中得到广泛的

研究. 这些研究关注照应语和候选先行语的语义信息, 应用大量的神经网络模型进行候选先

行语预测

[6-8]

. 目前的研究主要针对中文和英文等具有充足语料库的语种, 对维吾尔语等小

语种的研究不够深入, 针对小语种的研究无论是语料标注还是实体识别都需要掌握多级语

法知识、语义知识, 甚至相应语言领域知识, 在当前自然语言处理的研究阶段, 要获取和学

习研究中所需知识仍比较困难. 人称代词指代消解作为指代消解任务更细粒度的一个分支,

不仅依赖照应语和候选先行语特征信息, 还要关注距离特征和上下文语境信息. 例如句子:

(因为吾斯英是当代的大学者之一, 所以布葛热汗尊敬他)

我们普遍认为与照应语距离越近的候选先行语存在指代关系概率越大, 根据候选先行

语" (吾斯英)"、" (学者)"和" (布葛热汗)", 很难推断"

(吾斯英)" 是否为照应语" (他)"正确的先行语, 在这种情况下, 研究者会错误地判断"

(布葛热汗)"为" (他)"的先行语, 因为文本中" (布葛热汗)"与"

(他)"距离更近. 但是, 候选先行语" (吾斯英)" 才是照应语" (他)" 正确

的先行语. 所以, 人称代词指代消解应该充分考虑候选先行语距离特征和更深层次的语境信

息.

针对以上问题, 本文提出基于多注意力机制的深度学习模型应用于维吾尔语人称代词

指代消解任务. 注意力机制最早应用于视觉图像领域, 目的是在神经网络训练过程中将注意

力集中到图像的特定部分. Mnih 等首次提出在 RNN 模型上使用注意力机制进行图像分类

[9]

验证了注意力机制在图像处理领域的有效性. 随后 Bahdanau 等将注意力机制应用于机器翻

译任务

[10]

, 模型取得了显著的效果并使注意力机制成功应用于自然语言处理领域. 随着研究

不断深入, Yin 等提出基于注意力机制的卷积神经网络进行句子建模

[11]

, Wang 等使用基于注

意力机制的 LSTM 解决细粒度的情感分析问题

[12]

, 这些方法的提出验证了注意力机制结合

深度学习模型的有效性.

本文结合三种注意力机制来构造 CMAIR 模型: 1)词向量注意力机制: 突出照应语和候

选先行语的重要程度, 2)距离注意力机制: 有效表达不同词语对消解结果的贡献度, 3)词性注

意力机制: 是句中词和词性的关联. 同时, 本文结合 IndRNN 构造语境特征, 并将这 4 种特

征作为模型的输入, 可以从多个层面学习词语级和句子级特征信息, 提高指代消解性能.

本文提出的 CMAIR 模型使用 3 种注意力机制和语境特征构建模型, 使模型关注多种

特征信息. 最后, 将 CMAIR 模型在维吾尔语数据集进行实验, 实验结果表明, 本方法取得

了比以往研究更好的分类效果. 本文的主要贡献有 5 方面:

1) 提出一种结合语境的多注意力独立循环网络(CMAIR)应用在维吾尔语人称代词指

代消解任务中, 实验取得了当前研究最好效果;

2) 本文首次考虑结合语境的深度学习模型, 学习词序关联和依赖关系, 结合语境信息

增强了特征表达力;

3) 本文提出的词向量、词性、距离注意力机制能从三方面获取更深层次的特征信息,

弥补了单注意力机制仅关注内容层面信息的不足;

4) CMAIR 模型结构简单, 具有很强的鲁棒性和泛化能力, 无需额外的句法分析和语义

依存分析相关知识;

5) 提出一种距离识别算法, 能准确计算待消解对距离, 识别不同词在句中重要程度,

使 CMAIR 可以充分利用距离信息.

1. 相关工作

1.1 指代消解

指代消解作为自然语言处理重要子任务, 是细粒度的文本分类任务, 更加关注照应语

和候选先行语深层次语义特征, 一直以来都得到众多学者的研究和关注. Soon 等首次给出

利用机器学习的方法进行指代消解基本步骤, 其思想是把指代消解任务看作二分类问题, 从

已标注好的语料库中提取语料的各类词法、语法、语义特征作为消解框架的输入并利用分

类器完成指代消解任务

[13]

; Ng 等对 Soon 等研究进行了改进, 抽取 53 个特征, 指代消解的效

果有显著地改善

[14]

; Yang 等提出将特征方法和聚类相结合, 模型消解性能有较大的提高

[15]

;

这些方法通过传统的机器学习构造文本语法、句法等特征, 能充分利用文本内容层面特征,

有效进行指代关系识别. 此外, 指代消解在多种语言已得到广泛的研究.

近年来, 随着深度学习在自然语言处理领域的广泛应用, 许多研究者也利用深度学习

方法解决指代消解任务. Chen 等针对此问题提出一种深度神经网络模型, 在他们的工作中,

照应语和候选先行语用前馈神经网络编码

[16]

. Clark 等尝试对指代消解的一种神经网络

Mention Rank 模型的启发式损失函数中的超参数利用强化学习方式进行优化, 提出一种奖

励衡量机制, 跟其他方式相比结果突出

[17]

. Iida 等提出一种句内主题指代关系并利用多列卷

积神经网络(Multi-column CNN)来预测指代关系, 在多个基准测试中取得了很好的结果

[8]

Yin 等建立一个深度记忆网络获取零代词和先行语语义关联信息

[18]

. 这些方法使用深度学习

技术来解决指代消解问题, 可以在不需要依存树、句法关系的情况下通过深度神经网络更

好地学习文本的深层次特征信息, 取得了比传统机器学习方法更好的分类效果.

针对维吾尔语指代消解问题, 目前已有学者进行研究. 李敏等提出一种基于栈式自编

码深度学习的算法进行维吾尔语名词短语指代消解

[19]

. 田生伟等挖掘维吾尔语隐含的上下

文语义层面特征, 提出利用 BiLSTM 的深度学习机制进行基于深层语义信息的维吾尔语人

称代词指代消解, 维吾尔语人称代词指代消解的 F 值达到 76.86%, 证明了该方法的有效性

[20]

. 李冬白等通过堆叠多层 RBM 网络和一层 BP 网络构建 DBN 深度网络学习模型, 经过维

吾尔语语料库测试, F 值达到 83.81%, 该方法能有效提升维吾尔语人称代词指代消解性能,

推动了维吾尔语指代消解的研究

[21]

剩余18页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3578
资源: 1万+

基于多注意力机制的维吾尔语人称代词指代消解.docx

基于深度学习的维吾尔语人称代词指代消解.pdf

基于深度强化学习的维吾尔语人称代词指代消解.pdf

基于混合策略的藏文人称代词指代消解研究

论文研究-基于混合策略的藏文人称代词指代消解研究.pdf

小学英语人称代词练习大全.docx

基于图注意力机制和Transformer的异常检测.docx

高考总复习英语人称代词和物主代词练习题.docx

ChatGPT技术如何处理用户的话语模糊和指代消解.docx

基于改进注意力机制的问题生成模型研究.docx

基于单片机的数字电能表设计开题报告.docx.docx

基于SpringCloud-微服务系统设计解决方案.docx.docx

基于注意力机制的深度协同推荐模型.docx

基于单片机的压力检测系统设计 (2).docx

基于注意力机制的单幅图像去雾算法.docx

100道代词专项练习.docx

英语物主代词用法口诀.docx

基于多尺度融合注意力机制的人脸表情识别研究.docx

基于新型多尺度注意力机制的密集人群计数算法.docx

德语人称代词冠词物主代词变格.docx

基于JavaWeb的推荐数据后台管理系统的设计与实现.docx

实验三 基于simulink的通信系统仿真...docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

农村公交与异构无人机协同配送优化

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

李飞飞自传 我看见的世界 The World I see

最新资源

实验三基于simulink的通信系统仿真...docx

李飞飞自传我看见的世界 The World I see