没有合适的资源?快使用搜索试试~ 我知道了~
基于BERT-AWC的文本分类方法研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 96 浏览量
2022-11-30
09:30:29
上传
评论
收藏 329KB DOCX 举报
温馨提示
试读
13页
基于BERT-AWC的文本分类方法研究.docx
资源推荐
资源详情
资源评论
1. 引言
文本分类是自然语言处理领域的一个重要问题,随着网络购物和各大社交平台的快速
发展,人们越来越多地通过网络评论来抒发自己情感,通过文本分析方法可以确定文本的
情感极性或是文本讨论的主题等关键信息,从而高效处理大批量文本数据.
针对文本分类,首先需要将文字转换成向量,早期研究者主要采用文献[1]中使用的 n-
grams 算法来实现这一任务,后续谷歌研究人员提出了文献[2]所使用的 TF-IDF(Term
Frequency-Inverse Document Frequency)词向量表示法,但是这两种方法都存在词向量维度
过大,表述不明确的问题.为了解决上述问题,Tomas Mikolov
[3]
等人提出了 word2vec 算
法,将不同字、词映射成固定维度的矩阵,用这个矩阵来表达字、词的含义.到最近几年的
研究,由于计算资源的进步,预训练词向量模型得到了广泛的应用,预训练词向量的表述
更加精确且容易使用.在字、词向量的基础上,针对分类任务,部分研究者选择使用机器学
习领域的常规算法,例如文献[4-5]就使用了支持向量机(Support Vector Machines, SVM)和
K 邻近算法(k-Nearest Neighbor, KNN),但是机器学习算法大都存在分类准确度偏低的问题.
随着深度学习在计算机视觉领域取得了巨大的成功,研究人员开始将研究方向转向了深度
学习并取得了比较好的成绩,由 Kim Y 等人在文献[6]提出的 TEXTCNN 算法首次采用卷
积神经网络(Convolutional Neural Network, CNN)处理文本分类问题,有效地提高了文本分
类准确度,但是卷积神经网络并不能有效地处理序列化信息.与此同时文献[7]提出的循环神
经网络(Recurrent Neural Network, RNN)因其结构善于处理序列化信息而被用于文本分类等
自然语言处理任务中,由 Huang Z
[8]
提出的双向长短期记忆单元(Bidirectional Long-Short
Term Memory, Bi-LSTM),保留了 RNN 系列算法优势,同时采用双向信息编码,提高了模
型精度,并加快了模型收敛速度,但 RNN 系列算法无法实现并行计算,这导致模型训练
要花费大量的时间.由 Devlin J 等人在文献[9]提出的 BERT 模型(Bidirectional Encoder
Representations from Transformers, BERT)是目前最常用的文本处理模型,其采用了文献[10]
提出的 Transformer 结构可以实现并行训练,且通过自注意力机制 self-attention 可以更高效
地发掘字与字之间的关系.但是 BERT 参数量巨大,且训练依赖较好的硬件资源.
近年来,采用注意力机制的深度学习模型在自然语言处理领域获得了比较大的成功,
但仍存在处理中文数据表现欠佳、模型参数量庞大、训练困难的问题.为解决上述问题,本
文提出了基于混合注意力机制的轻量化深度学习模型 BERT-AWC,本文的主要贡献包括如
下方面.第一:提出均匀词向量卷积模块 AWC(Average Word Vector Convolutional),在传统
卷积神经网络中加入注意力机制,优化卷积模块的词向量特征提取效果;第二:融合自注
意力网络的全局特征以及均匀词向量卷积模块的局部特征,生成混合注意力特征;第三:
采用平衡多头设计、层级参数共享、卷积层代替全连接层等方式大幅度降低模型的参数量.
经过实验证明,BERT-AWC 模型的参数量仅为基准模型 BERT-base 的 3.6%,针对中文数
据的分类准确率在各数据集上均有 1%到 5%的效果提升.
2. 基于混合注意力机制的文本分类系统设计
Transformer 模块是实现 BERT 数据处理的关键部件,其核心思想是通过自注意力机
制 self-attention 实现上下文的编解码,相比较 RNN 和文献[11]提出的 LSTM(Long-Short
Term Memory)算法,它的优点是可以实现并行计算,并且可以学习到句子的整体内容.self-
attention 的计算过程如式 1-4 所示.
Q=XWqQ=XWq
(1)
K=XWkK=XWk
(2)
V=XWvV=XWv
(3)
Self−Att(Q,K,V)=softmax(QKTdk−−√)VSelf−Att(Q,K,V)=softmax(QKTdk)V
(4)
式中,X∈R
n×d
为句向量矩阵;n 为句子的长度,d 为每个字的嵌入维度
embedding_size.经过线性变换后可以得到 Q∈R
n×d
、K∈R
n×d
、V∈R
n×d
三个矩阵,Q 为查询
矩阵,K 为被查询矩阵,V 为特征矩阵,初始的 Q、K、V 矩阵和 X 具有相同的维度.为提
升模型性能,Transformer 还采用了多头机制和残差连接思想.多头机制的基本思路是将 Q,
K,V 矩阵分配给 H 个注意力头,让其分别做 self-attention 运算,然后将每个头的结果合
并起来,起到了从多个角度看待同一句话的作用,所以 Q,K,V 矩阵的 embedding_size
也缩小为 d
k
,其中 d
k
=d/H.而残差连接思想和文献[12]提出的残差神经网络类似,是将浅层
的信息再次传递到更深层的网络中去,防止网络丢失重要信息.
虽然 BERT 处理英文数据时有比较高的准确度,但其参数量庞大,训练十分困难,且
模型处理中文数据时无法提取词向量特征,因此模型准确度欠佳.为解决 BERT 模型以及传
统文本分类方法存在的问题,受文献[13-14]的启发,提出基于混合注意力机制的文本分类
方法 BERT-AWC.在优化 BERT 模型的基础上,通过自注意力网络结合均匀词向量卷积模
块组成混合注意力模块,使得模型可以获取文本的全局以及局部特征,同时采用平衡多头
设计,使用原本 1/2 的注意力头做 self-attention 运算,剩余部分用于均匀词向量卷积神经
网络运算.在完成上述两点优化的同时,采用层级参数共享机制等方法优化模型结构,大幅
度降低模型参数量,模型的基本框架如图 1 所示:
图 1 文本分类模型总体设计
Figure 1. The overall design of the text classification mode
下载: 全尺寸图片 幻灯片
首先通过 embedding 层将输入的句子初步编码成 128×384 的字向量矩阵,其中 128 为
句子的固定长度,384 为词向量的维度,同时输入模型的文本信息需要加入字词的位置信
息,其原因在于相同的字组成的句子可能其含义完全不同,例如“太太怕我”和“我怕太太”
就是字相同而意思不同,为了应对这种情况 BERT 模型采用了公式 5-6 所示的位置编码方
法.
PE(pos,2i)=sin(pos/100002i/dmodel)PE(pos,2i)=sin(pos/100002i/dmodel)
(5)
PE(pos,2i+1)=cos(pos/100002i/dmodel)PE(pos,2i+1)=cos(pos/100002i/dmodel)
(6)
式中,pos 为字在句子中的对应位置;i 为位置参数;奇数位置使用公式(6)计算,偶
数位置使用公式(5)计算,d
model
为位置矩阵维度,通过周期变化的正余弦波相加就可以得到
字词的位置信息.
本文为简化计算流程,选择将位置编码层直接设置为一个可训练的矩阵,让其加入整
个神经网络的迭代运算中,之后将位置矩阵与词嵌入矩阵相加,作为输入信息送到混合注
意力网络中进行训练.首先使用混合注意力模块提取文本特征,然后该特征经过残差连接归
一化层、卷积连接层的学习获得更多的文本信息,之后再将其输入到下一个混合注意力模
块中接着学习.本文采用了 12 层混合注意网络作为模型主体,由于采用了层级参数共享,
使得模型在精度没有过多损失的前提下实现了参数最小化.最后在输出层使用 softmax 获取
文本分类的概率信息,完成文本分类目标.
2.1 均匀词向量卷积模块
TEXTCNN 算法首次将卷积神经网络用于英文数据处理,后续也有作者将其直接用于
相关的中文任务,但是中文文本不同于英文文本.英文的一个单词就是一个词,然而中文一
剩余12页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3582
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 5.14整合ssmfffffffffffff
- Example8_10自定义视频控件按钮.html
- Windows系统安装VMware虚拟机的教程
- OTN光传输网络OTU、OPU、ODU、PM、SM、TCM各种开销图
- Windows系统安装VMware虚拟机的教程
- Python-数据库.xmind(思维导图)
- STM32计数器PCB 1602 2个传感器.PcbDoc
- Windows系统安装VMware虚拟机的教程
- WOA-HKELM鲸鱼算法优化混合核极限学习机多变量回归预测(Matlab完整源码和数据)
- Screenshot_2024-05-14-22-47-39-925_com.alibaba.android.rimet.hznu.jpg
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功