1. 引言
文本分类是指建立文本与类别之间的关系模型,作为自然语言处理的基础性任务之一
[1]
,在情感分析、社交平台舆论监测、垃圾邮件识别等方面都具有重大意义.
针对文本分类任务中如何利用上下文依赖关系,提取文本特征和凸显关键信息等问
题,提出一种基于文本分类的 MCA-CL(Multi-Channel Attention Mechanism Model based on
CNN and LSTM)神经网络模型,该模型使用 Word2vec 训练低维稠密词向量,以 CNN-
Attention 提取词窗内文本的多重局部特征,并进行特征加权表示;以 BiLSTM-Attention 构
造句子层次的特征表达,并进行特征凸显.通过融合多通道的输出,能够充分结合 CNN、
LSTM 和 Attention 的优势,然后利用 softmax 函数进行文本与标签类别的概率映射.相较于
串联形式的 SCA-CL(Single-Channel Attention Mechanism Model Based on CNN and LSTM)和
其他组合模型,MCA-CL 模型能够统筹文本的局部和全局特征,具备较好的稳定性和鲁棒
性,有效的提升文本分类任务的效果.
2. 相关工作
文本分类任务的实现技术可分为基于规则、基于统计和机器学习、基于深度学习的三
类方法
[2]
.基于规则的方法由于人力耗费巨大、规则模板的全面性和不可迁移性等限制,适
用性较差.基于统计和机器学习的方法主要包括 K 最近邻(KNN)、随机森林(RF)、逻辑斯蒂
回归(LR)、支持向量机(SVM)等,Kanish
[3]
等利用词频-逆向文件频率(TF-IDF)将新闻语料转
换为数字向量,比较了 KNN、RF 和 LR 在特定数据集上,LR 的分类效果最优,KNN 最
差.Chen
[4]
在朴素贝叶斯的基础上,通过平衡估计量的偏差和方差,构建含有不同类别之间
的整体相关因子,取得了更好的准确性.胡婧
[5]
等人以粗糙集的词袋(BOW)模型结合 SVM,
利用属性约简算法进行文本特征降维,克服了文本特征空间的高维稀疏性.以上改进的机器
算法模型,虽然一定程度上提升了模型文本分类的效果,但是受限于文本数据集的大小、
人工特征提取的准确性,同时忽略了文本特征之间的关联性等方面,模型效果和表达能力
较差.
随着 word2vec
[6-7]
词向量工具的引入,基于深度学习的文本分类模型得到了广泛应
用,主要包括卷积神经网络(Convolutional Neural Networks, CNN)、长短期记忆神经网络
(Long Short-Term Memory, LSTM)及各类神经网络的组合.高云龙
[8]
等人将文本数据集以不同
的编码方式提取不同粒度的数字特征,作为多层次 CNN 的通道输入,同时增加稀疏性限
制提升模型的泛化能力.李洋
[9]
等人以 CNN 和 BiLSTM 并行的互补模型,提取更为全面的
文本特征,有效的缓解了 CNN 丢失上下文信息和 LSTM 梯度消失或弥散的问题.神经网络
模型的改进或融合,一定程度上提升了分类效果,却无法表征文本特征对于分类模型影响