没有合适的资源?快使用搜索试试~ 我知道了~
基于AttentionSBGMC模型的引文情感和引文目的自动分类研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 109 浏览量
2022-06-26
14:57:48
上传
评论
收藏 380KB DOCX 举报
温馨提示
试读
16页
基于AttentionSBGMC模型的引文情感和引文目的自动分类研究.docx
资源推荐
资源详情
资源评论
1 引言
由于全文数据匮乏早期引文分析研究多以期刊论文的被引次数为基础 如
指数和影响因子等
。但传统引文分析存在一定的不足之处如只关注被引频次
将引文同等看待忽略引用内容无法有效识别出引用行为中情感倾向、目的企图
等有价值的信息导致引文分析的结果缺乏更深层次的内容数据支持
。当前全
文数据库的开放和自然语言处理技术的发展为引用内容分析提供了数据支持和
技术支持。通过分析引文文本的内容深层剖析引用行为确定施引者对目标文献
的情感倾向和引用论文的目的这样能够帮助研究者更加直观地认知目标文献在
科学社区的价值与影响。同时引用情感和引用目的识别对后续如科学知识评价、
科学热点预测等相关研究也有重要的作用。
引文文本的情感和目的识别区别于其他文本(如商品评论)的情感分类 引
文文本有其自身显著的特点如引文文本的句子长度相较于其他文本更加冗长、
书写模式更加规范更加注重语法结构等。同时基于引用内容的引文情感和引文
目的的分类研究采用的方法大多是使用机器学习技术提高分类性能然而这种方
法通常存在标注特征十分耗时的问题。深度学习模型可以很好地解决该问题 深
度学习模型具有自学习功能在实现文本分类时只需将文本及其所对应的标签输
入神经网络不需要人工提取特征模型就能够在有监督的条件下进行自我优化和
调整超参数。同时网络也能够通过自学习功能识别其他类似的文本自学习功能
对于文本标签预测有着重要意义。因此本文提出一种综合多种神经网络的模型
探讨深度学习模型在引文情感和引文目的自动分类中的价值。
本文以 为基础将其作为嵌入层代替传统自然语言处理任务中的
词嵌入模型然后根据引文文本的特点 选择将双向门控循环单元(
)网络和多尺度卷积神经网络(
!"##$%##)进行串联接入按序提取出全
局语义特征和局部关键特征&并使用注意力机制对提取出的特征重新分配权重使
模型更加关注于重点特征最后输入线性层进行文本分类。
2 相关研究工作
'引用情感分类
当前对引文情感识别的研究主要分为两大类:基于情感词典的方法和基于
机器学习的方法。
基于情感词典的方法主要是构建特定领域的词典或直接利用现有的词典 并
以此为基础对文本中出现的词语进行匹配和打分从而达到引文情感分类的目的。
(%) 等
*
提出基于情感词典方法识别引用情感提取引文上下文作为文
本片段然后利用词性标签确定文本中的形容词。该方法将每个形容词分为正面
或负面然后汇总所有分数以确定最终的引用情感。+(!(, 等
-
通过自动
识别引用句子中形容词是消极或积极判断引用情感并在小数据集上得出结论:
如果一个句子没有形容词该句可以是未知或中性的。. 等
/
提出一个基
于 使 用 0#
1
和 其 他 词 汇 确 定 引 文 情 感 的 框 架 结 果 显 示
0# 词典在引文情感分类任务中相对于其他词典具有优越性。廖君华
等
2
利用 3453 算法筛选出引用情感特征词同时结合 $# 情感词典使用朴
素贝叶斯分类器对引用内容进行正负两类的自动分类。基于词典的方法具有一
定的局限性直接利用现有的词典进行引文文本分类会使最终实验效果在一定程
度上受限于所采用的情感词典而构建特定领域的词典又难以得到研究者的共同
认可。
基于机器学习的引用情感分类方法着重从特征的选取和机器学习模型的选
取角度进行探索。(
6
从 7(计算语言学协会)语料库中提取引用句子手
动进行标记并构建数据集在此基础上使用基于句法结构的特征训练支持向量机
和朴素贝叶斯进行分类结果表明 8)! 和依赖关系特征在任务中表现最好。
( 等
发现在判断引用情感时考虑引文上下文内容(引用句子周围的 个句
子为一个窗口)与只考虑引用句相比取得了更好的效果同时支持向量机相较于
其他分类模型表现更为优异。" 等
使用监督序列标记技术找出给定引文
的引用句子以是否为自我引用、是否存在否定词、是否存在依存关系等特征训
练 支 持 向量 机 ( 99( ) 达 到引用 情 感分类 的 目 的。
等
在实验结论指出引用情感为中性的文本居多数据存在不均衡的问题应
增加负面与正面的数据规模以提高情感分类器的准确性。:) 等
提出具有 n-
8)! 特 征 的 模 型 进 行 引 用 情 感 分 类 。 4%) 等
*
在 实 验 中 指 出 n
8)!(n;<*)实现了情感分类的最佳结果。
在国内刘盛博等
-
将引用内容分为正面、中性和负面三类根据引用内容句
子中的主语和线索词对杂志中引用内容记录进行情感分类。= 等
/
提出一种基
于规则的方法提取引文并对 666 篇引文进行人工注释以构建其数据集。n
8)! 和情感词库特征训练 并将引文分为积极和消极两类注意到这些特征
的组合比仅使用单个特征获得了更好的分类精度。冷东天
1
从引文上下文中提取
反映内容和结构特性的 6 个特征将具有逻辑关系的特征进行组合同其他特征
一起构成特征模板输入条件随机场()33)模型达
到对引用内容隐含情感自动分类的目的。基于机器学习的方法首先需要从语料
集中提取特征而特征提取的过程本身也是一个非常耗时的工作有很多特征涉及
手动提取如引用位置、提及次数等特征这使基于机器学习的方法存在特征耗时
的问题且最终情感分类的性能受限于特征的选取。
深度学习模型因其具有的自学习功能的优势也被用于引文情感分析领域。
%( 等
2
提出利用 7 神经网络分类模型实现引文情感分类任务。
7!( 等
6
通过不同的文本向量化表示模型并结合卷积神经网络识别引文情
感。,! 等
同样在实验中指出深度学习方法在引文情感分类任务中的表现优
异。上述结果表明使用深度学习方法可以更好地自动捕获局部和序列特征并提
高分类性能这为在本文研究中深度学习模型的引入奠定了理论基础。
'引用目的分类
前人研究提出许多方法处理引用目的分类。针对引用动机的研究主要包括
两种方式:直接对施引文献作者进行问卷调查
*
或者通过对引用内容的分
析进行动机的判断。>
-
在提出引文分析时阐明论文引用存在许多不同原
因较为系统地归纳了 * 种典型引用动机。79.
/
依据被引文献的内容和功能
将引用动机细分为 组 2 项特征。"!% 等
1
提出了另一个引用方案其中
包含 个维度包括概念、并列、敷衍和证实。> 等
2
采用了 个类别作为
引用分类方案并将它们简化为 个类别即弱点、对比、积极和中立训练支持向
量机()对引文进行引用目的分类。58 等
6
提出使用具有否定、提示词、
词 性 标 注 、 位 置 等 特 征 训 练 朴 素 贝 叶 斯 ( # ) 将 引 文 分 为 种 功 能 。
?.". 等
提出一个具有 - 个功能的引用方案并利用机器学习技
术检测作者的情绪和引用论文的目的。
在国内刘盛博等
-
将引用动机分为 - 类根据引用内容句子中的主语和线索
词对杂志中引用内容进行分类。李卓等
以 * 个学科领域中文图书为例获取其
在施引文献中的引文内容信息并标注引文的动机标签探究图书的被引动机与其
他因素关系。同时研究者指出引用动机对于文献评价研究同样十分重要
。
这些研究为实现引用情感和引用目的自动分类提供了丰富的理论指导 具有
重要的参考价值。这些研究大多利用机器学习的方法采取特征工程的方式以达
到文本分类的目的通常需要具有专业知识的研究人员耗费大量时间提取特征。
在引文领域采用深度学习的方法还处于初步阶段大多使用单一的神经网络模型
进行实验存在准确率较低的问题。
3 研究思路与框架
深度学习技术已经被应用于引用情感和目的识别 然而相关实验还处于初步
探索阶段且由于所采用的深度学习模型单一并没有显示出显著的改进效果。
为此本文提出综合的深度学习模型 (
##)该模型引入预训练模型 、双向 网络、多
尺度 ## 网络以及注意力机制结合 能更加准确地对学术论文进行文
本向量化表达、双向 网络能更加全面地提取语料集中的全局特征、多尺度
## 能更好地提取多尺度局部特征以及注意力机制关注与任务密切相关特征的
优势探讨将多种不同的深度学习模型进行串联提升引文情感分类和引文目的分
类性能的可能性。
模 型 结 构 如 图
所 示 。 该 模 型 首 先 使 用 预 训 练 模 型
作为嵌入层进行文本向量化表示&然后将 输出的向量矩阵输
入 网络进行全局时序特征提取&在此基础上进一步输入 ##(多
尺度卷积神经网络)提取局部关键特征&再引入注意力机制为提取出的特征分配
权重从而使模型能够重点关注和利用重要特征最后输入线性层进行分类。
图
图 1AttentionSBGMC 模型结构
Fig.1AttentionSBGMC Model
'基于 模型的文本向量化表示方法
模 型 是 以 万 篇 科 技 论 文 预 训 练 出 来 的 语 言 模 型 与
(9!>)!>)! )模型一样
均基于 !>) 的双向编码器获取文本的向量表示然后在特定任务数据上
通过一个额外的输出层进行微调(38)。语言模型是通过给定文本的
上下文预测出下一个词并在预训练的过程中准确地学习到潜在的语义、语法信
息。 模型为了加强对上下文信息的联系通过自动随机掩码机制实现预
训练的深度双向表示。在训练模型时随机将一些词汇替换成特殊符号:或
剩余15页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3674
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功