没有合适的资源?快使用搜索试试~ 我知道了~
基于多特征融合的中文文本分类研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 123 浏览量
2022-06-26
15:19:54
上传
评论
收藏 350KB DOCX 举报
温馨提示
试读
20页
基于多特征融合的中文文本分类研究.docx
资源推荐
资源详情
资源评论
1 引言
随着移动互联网和社交网络的蓬勃发展,用户投诉、在线评论等在线文本信
息越来越多,用户和企业可以对这些信息进行有效挖掘,及时发现数据中潜在的商
业价值和用户的需求。如何对这些数据进行有效挖掘 ,对于广大企业而言显得尤
为重要。
文本分类作为自然语言处理中的基础任务之一,在垃圾邮件过滤、情感分析、
问答系统、信息检索等领域起着极其重要的作用。目前 ,文本分类任务中流行的
方法主要有两类:基于传统机器学习的方法和基于深度学习的方法。
基于传统机器学习的方法中,文本分类方法致力于特征工程和多种机器学习
分类器
[1
]
的使用。在机器学习的特征获取阶段 ,由于词袋法方便简单,易于使用,很
多学者使用词袋法获取关键语义特征,但它没有考虑到关键特征词之间的语义顺
序信息。为了弥补这一缺陷,方秋莲等
[2
]
通过添加 n-gram 或短语获取单词顺序信
息。在机器学习的分类阶段,线性分类器被广泛使用,如朴素贝叶斯等。虽然在机
器学习分类任务中,很多更复杂的特征被设计用来捕获更深层的语义信息,但是仍
然无法有效解决数据稀疏问题,严重影响了模型的分类效果。
另一种高效的文本分类方法是基于深度学习的方法。传统机器学习方法很
大程度上依赖于人工特征构建,这将消耗大量的人力和时间成本,人为因素干扰会
造成特征噪声。深度学习方法有效地解决了这些问题 ,被广泛用于自然语言处理
中。在深度学习文本分类任务中 ,很多学者在特征获取阶段采用词嵌入( Word
Embedding)技术避免人工设计特征,有效捕捉词汇隐藏的语义和语法特征。现
阶段词嵌入技术已经和深度学习紧密结合,这为文本分类的研究提供了新的思路。
而在文本分类中,中文文本存在特征稀疏、上下文依赖性强等特点,在进行处
理的过程中总会丢失较多的语义特征,特征获取不够全面。同时,在中文文本中还
存在由于拼写错误、同音词等对分类效果所造成的影响,如何有效地获取特征、
提高模型的准确率,是中文文本分类研究所面临的一个挑战。为了解决中文文本
分类中存在的这些问题,本文提出一种多特征融合的文本分类模型。在词向量的
基础上结合拼音字符特征,缓解拼写错误所带来的影响,并加入词性标记和汉字字
符特征作为特征补充以丰富语义信息,以便深度学习模型获取更全面的语义信息。
2 相关工作
随着深度学习的不断发展,与传统的自然语言处理方法相比,深度学习算法在
自然语言处理任务中取得了不错的效果。在文本分类任务中,最受欢迎的深度学
习方法主要包括:卷积神经网络(Convolutional Neural Network,CNN)和循
环神经网络(Recurrent Neural Network,RNN)。
卷积神经网络(CNN)是一个典型的空间上的深度神经网络,具有优异的特
征自抽取能力,能够显著降低文本分类中人工抽取特征的难度。很多学者在 CNN
的基础上进行了改进,并且可以达到预期的令人满意的性能。Kim
[3
]
利用不同的滤
波器获取不同层面的语义信息,并利用多个卷积层获取深层的语义信息,与单层的
卷积相比,模型效果得到显著提升。Kalchbrenner 等
[4
]
提出一种动态卷积神经网
络 ( Dynamic Convolutional Neural Network,DCNN ) 模 型 , 采 用 动 态 ( k-
Max)池化获取句子语义特征,模型在问题和情感分类方面取得了不错的效果。
Johnson 等
[5
]
提 出 一 种 词 级 别 的 深 层 卷 积 神 经 网 络 模 型 ( Deep Pyramid
Convolutional Neural Networks,DPCNN),能够在有效获取多层次语义特征的
基础上,有效获取文本中的长期依赖信息。
循环神经网络(RNN)可以有效地学习近距离的语义特征,但存在梯度消失
或梯度弥散问题。因此,RNN 出现多个变种循环神经网络模型,如长短时记忆网
络(Long Short-Term Memory,LSTM)。在问题分类任务中,LSTM
[6
]
有效解决
了 RNN 梯度回传过程中面临的消失和爆炸的问题,进一步优化了深度模型。虽然
LSTM 可以提取长距离的上下文语义特征 ,但结构复杂,时间代价大。针对 CNN
和 LSTM 自身存在的不足,王海涛等
[7
]
将多层的 CNN 与 LSTM 相结合进行优势互
补。门控循环单元(Gated Recurrent Unit,GRU)网络结构相对 LSTM 而言更
简单
[8
]
,能有效地提高模型训练时间。双向门限循环单元( BiGRU)
[9
]
通过双向
GRU 充分地利用上下文信息,记忆当前单词并实时更新这个时刻之前的所有单词
的信息,基于序列从而更好地预测。为了提升模型的性能,郑诚等
[10
]
将 CNN 与
BiGRU 相结合进行特征获取,有效缓解了特征丢失的问题。
在文本分类任务中,很多学者将深度学习与词嵌入技术相结合。词嵌入方法
中最流行的方法是 Word2Vec
[11
,12
]
。Word2Vec 是一种基于预测的词向量模型,有
CBOW(Continuous Bag-of-Word)和 Skip-Gram 两种训练模式。依据文本粒
度粗细的划分,词嵌入分为词语级别嵌入和字符级嵌入两种。在此基础上,很多学
者结合深度学习对文本特征从词级别和字符级别进行了深度拓展。对于词级别
特征扩展,为了提高文本分类的准确率,文献[3
,4
]通过词级别特征与深度学习模型
相结合获取文本的抽象语义特征,准确率得到大幅度提升。陈钊等
[13
]
结合卷积神
经网络和传统词语情感序列特征,通过对文本中词语进行抽象表示获得了更高的
分类准确率。王海涛等
[7
]
使用词嵌入技术将文本进行向量表示 ,并输入改进的
MLCNN(Merge-LSTM-CNN)中,准确率得到大幅度提升。在字符特征研究中 ,
刘敬学等
[14
]
提出一种字符特征的 CNN 和 LSTM 相结合的模型进行短文本分类,使
用字符嵌入保留原始文本信息,但是对于词语间的理解仍有所欠佳。为了丰富语
义信息,杨路辉等
[15
]
在词级别特征的基础上结合字符特征进行特征扩展,同时提取
浅层和深层字符级特征并融合,模型的效果提升显著。聂维民等
[16
]
在字粒度的基
础上结合词粒度和主题粒度,不断提高文本的特征表示能力,但涉及的词序关系范
围小。刘龙飞等
[17
]
则利用字特征挖掘微博文本特征,与词级别原始输入特征相比,
模型准确率更高。为了缓解中文文本中的拼写错误及其同音词所造成的语义理
解偏差,余本功等
[18
]
提出一种结合拼音字符和词的双输入卷积神经网络模型 CP-
CNN,并在采样层使用 k-Max 动态采样,增强模型特征的表达能力。
在文本分类任务中,鉴于每个词都具有不同的词性,在词性中也包含着一些重
要的语义信息。为了学习语篇中更深层次的抽象特征,有学者通过词性标注区分
词在句子结构或语义中的不同角色
[19
,20
,21
]
,有助于模型提取相应的特征。也有学者
在分类的过程中,探究了不同词性(名词、副词、形容词、情态动词、形容词
等)标签的影响,只保留对分类过程重要的语义特征,有效地消除了文本歧义,提高
了文本的分类性能
[22
,23
,24
,25
]
。为了提高区分术语的能力,文献[26
,27
]通过整合搭配
作为术语特征,对形容词、名词、动词等特定类型词类的确定,提取出搭配词,降低
了特征向量维数,提高了文档的表达能力。在词性研究中,Cheng 等
[28
]
通过嵌入将
词性部分映射为向量表示,然后直接将其输入带有词向量的模型中进行训练,在不
同的语言中通过添加词性特征
[29
,30
,31
,32
]
,分析更深层的语义信息,实验结果表明,词性
特征嵌入使所有分类器的分类准确率得到提高。为了更好地探索词语的句法信
息,Huang 等
[33
]
发现在神经网络中进行词性标记编码可以增强句子/短语的表示。
Shiguihara-Juárez 等
[34
]
考虑到文本中词法、语法和依赖特性的特征关系,利用词
性标签特性中的信息,并与单词相结合,有效提取句子中的特征。有学者在输入层
中构建词级别和词性特征双通道
[8
]
,以及字符级别、词级别和词向量融合词性特征
的三通道
[35
]
,有效学习到句子内部的抽象语义信息。
鉴于深度学习领域 CNN 和 BiGRU 在文本分类任务中的显著效果,同时考虑
到在分类文本中,不同的词性所代表的重要性不同,而 Word2Vec 词向量忽略了词
性信息,同时为了弥补特征获取不充分的问题,本文提出了基于多种特征融合的文
本分类模型。多种特征融合的文本分类模型,结合 Word2Vec 获取词级别的原始
语义信息,在此基础上结合拼音字符特征、汉字字符特征和词性特征进行特征补
充,使模型更充分地保留语义特征,在减少特征丢失的同时,提高模型的语义表征能
力。同时,模型融合了 BiGRU 和 CNN,在有效获取文本上下文特征的同时,结合
CNN 获取局部特征,去除冗余特征,有效获取抽象的高级语义信息。通过多种优
化,不断丰富模型语义特征,以实现特征信息更加完整,进而提升模型分类性能。本
文方法通用性较强,无需人工提取特征,极大地减少了参数量,节约了大量的人力和
时间成本,满足了文本自动分类的需求。
3 基于多特征融合的文本分类模型
本文提出的多种特征融合文本分类模型,从多种语义层面进行语义理解,进一
步提高文本的表征能力,进而提高文本分类的准确率。对于多特征融合的文本分
类模型,首先需要对预处理后的待分类文本数据进行语义特征建模,包括词级特征
表示、词性 POS(Part-Of-Speech)特征表示、汉字字符特征表示和拼音字符
级特征表示,构建 4 种不同的输入表示;然后将处理好的特征表示分别输入 BiGRU
进行上下文语义特征获取;接着将获取的上下文语义特征输入多种滤波器的卷积
神经网络中进行局部特征获取,增强模型的特征学习能力;最后将多种不同的语义
特征融合,丰富特征信息,并输入 Softmax 层中进行分类,预测得到所需要的类别
标签。多特征融合的文本分类模型结构如图
1
所示。整个模型主要由语义特征
表示、上下文特征获取、局部特征获取、多特征融合和 Softmax 分类 5 部分组
成。
图 1
剩余19页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3543
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功