基于BERT-AWC的文本分类方法研究.docx资源-CSDN文库

版权申诉

96 浏览量 2022-11-30 09:30:29 上传评论收藏 329KB DOCX 举报

资源推荐

资源详情

资源评论

1. 引言

文本分类是自然语言处理领域的一个重要问题，随着网络购物和各大社交平台的快速

发展，人们越来越多地通过网络评论来抒发自己情感，通过文本分析方法可以确定文本的

情感极性或是文本讨论的主题等关键信息，从而高效处理大批量文本数据.

针对文本分类，首先需要将文字转换成向量，早期研究者主要采用文献[1]中使用的 n-

grams 算法来实现这一任务，后续谷歌研究人员提出了文献[2]所使用的 TF-IDF(Term

Frequency-Inverse Document Frequency)词向量表示法，但是这两种方法都存在词向量维度

过大，表述不明确的问题.为了解决上述问题，Tomas Mikolov

[3]

等人提出了 word2vec 算

法，将不同字、词映射成固定维度的矩阵，用这个矩阵来表达字、词的含义.到最近几年的

研究，由于计算资源的进步，预训练词向量模型得到了广泛的应用，预训练词向量的表述

更加精确且容易使用.在字、词向量的基础上，针对分类任务，部分研究者选择使用机器学

习领域的常规算法，例如文献[4-5]就使用了支持向量机(Support Vector Machines, SVM)和

K 邻近算法(k-Nearest Neighbor, KNN)，但是机器学习算法大都存在分类准确度偏低的问题.

随着深度学习在计算机视觉领域取得了巨大的成功，研究人员开始将研究方向转向了深度

学习并取得了比较好的成绩，由 Kim Y 等人在文献[6]提出的 TEXTCNN 算法首次采用卷

积神经网络(Convolutional Neural Network, CNN)处理文本分类问题，有效地提高了文本分

类准确度，但是卷积神经网络并不能有效地处理序列化信息.与此同时文献[7]提出的循环神

经网络(Recurrent Neural Network, RNN)因其结构善于处理序列化信息而被用于文本分类等

自然语言处理任务中，由 Huang Z

[8]

提出的双向长短期记忆单元(Bidirectional Long-Short

Term Memory, Bi-LSTM)，保留了 RNN 系列算法优势，同时采用双向信息编码，提高了模

型精度，并加快了模型收敛速度，但 RNN 系列算法无法实现并行计算，这导致模型训练

要花费大量的时间.由 Devlin J 等人在文献[9]提出的 BERT 模型(Bidirectional Encoder

Representations from Transformers, BERT)是目前最常用的文本处理模型，其采用了文献[10]

提出的 Transformer 结构可以实现并行训练，且通过自注意力机制 self-attention 可以更高效

地发掘字与字之间的关系.但是 BERT 参数量巨大，且训练依赖较好的硬件资源.

近年来，采用注意力机制的深度学习模型在自然语言处理领域获得了比较大的成功，

但仍存在处理中文数据表现欠佳、模型参数量庞大、训练困难的问题.为解决上述问题，本

文提出了基于混合注意力机制的轻量化深度学习模型 BERT-AWC，本文的主要贡献包括如

下方面.第一：提出均匀词向量卷积模块 AWC(Average Word Vector Convolutional)，在传统

卷积神经网络中加入注意力机制，优化卷积模块的词向量特征提取效果；第二：融合自注

意力网络的全局特征以及均匀词向量卷积模块的局部特征，生成混合注意力特征；第三：

采用平衡多头设计、层级参数共享、卷积层代替全连接层等方式大幅度降低模型的参数量.

经过实验证明，BERT-AWC 模型的参数量仅为基准模型 BERT-base 的 3.6%，针对中文数

据的分类准确率在各数据集上均有 1%到 5%的效果提升.

2. 基于混合注意力机制的文本分类系统设计

Transformer 模块是实现 BERT 数据处理的关键部件，其核心思想是通过自注意力机

制 self-attention 实现上下文的编解码，相比较 RNN 和文献[11]提出的 LSTM(Long-Short

Term Memory)算法，它的优点是可以实现并行计算，并且可以学习到句子的整体内容.self-

attention 的计算过程如式 1-4 所示.

Q=XWqQ=XWq

(1)

K=XWkK=XWk

(2)

V=XWvV=XWv

(3)

Self−Att(Q,K,V)=softmax(QKTdk−−√)VSelf−Att(Q,K,V)=softmax(QKTdk)V

(4)

式中，X∈R

n×d

为句向量矩阵；n 为句子的长度，d 为每个字的嵌入维度

embedding_size.经过线性变换后可以得到 Q∈R

n×d

、K∈R

n×d

、V∈R

n×d

三个矩阵，Q 为查询

矩阵，K 为被查询矩阵，V 为特征矩阵，初始的 Q、K、V 矩阵和 X 具有相同的维度.为提

升模型性能，Transformer 还采用了多头机制和残差连接思想.多头机制的基本思路是将 Q，

K，V 矩阵分配给 H 个注意力头，让其分别做 self-attention 运算，然后将每个头的结果合

并起来，起到了从多个角度看待同一句话的作用，所以 Q，K，V 矩阵的 embedding_size

也缩小为 d

k

，其中 d

k

=d/H.而残差连接思想和文献[12]提出的残差神经网络类似，是将浅层

的信息再次传递到更深层的网络中去，防止网络丢失重要信息.

虽然 BERT 处理英文数据时有比较高的准确度，但其参数量庞大，训练十分困难，且

模型处理中文数据时无法提取词向量特征，因此模型准确度欠佳.为解决 BERT 模型以及传

统文本分类方法存在的问题，受文献[13-14]的启发，提出基于混合注意力机制的文本分类

方法 BERT-AWC.在优化 BERT 模型的基础上，通过自注意力网络结合均匀词向量卷积模

块组成混合注意力模块，使得模型可以获取文本的全局以及局部特征，同时采用平衡多头

设计，使用原本 1/2 的注意力头做 self-attention 运算，剩余部分用于均匀词向量卷积神经

网络运算.在完成上述两点优化的同时，采用层级参数共享机制等方法优化模型结构，大幅

度降低模型参数量，模型的基本框架如图 1 所示：

剩余12页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3582
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip