基于多特征融合的中文文本分类研究.docx_特征融合文本分类资源-CSDN文库

版权申诉

123 浏览量 2022-06-26 15:19:54 上传评论收藏 350KB DOCX 举报

资源推荐

资源详情

资源评论

1 引言

随着移动互联网和社交网络的蓬勃发展,用户投诉、在线评论等在线文本信

息越来越多,用户和企业可以对这些信息进行有效挖掘,及时发现数据中潜在的商

业价值和用户的需求。如何对这些数据进行有效挖掘 ,对于广大企业而言显得尤

为重要。

文本分类作为自然语言处理中的基础任务之一,在垃圾邮件过滤、情感分析、

问答系统、信息检索等领域起着极其重要的作用。目前 ,文本分类任务中流行的

方法主要有两类：基于传统机器学习的方法和基于深度学习的方法。

基于传统机器学习的方法中,文本分类方法致力于特征工程和多种机器学习

分类器

]

的使用。在机器学习的特征获取阶段 ,由于词袋法方便简单,易于使用,很

多学者使用词袋法获取关键语义特征,但它没有考虑到关键特征词之间的语义顺

序信息。为了弥补这一缺陷,方秋莲等

]

通过添加 n-gram 或短语获取单词顺序信

息。在机器学习的分类阶段,线性分类器被广泛使用,如朴素贝叶斯等。虽然在机

器学习分类任务中,很多更复杂的特征被设计用来捕获更深层的语义信息,但是仍

然无法有效解决数据稀疏问题,严重影响了模型的分类效果。

另一种高效的文本分类方法是基于深度学习的方法。传统机器学习方法很

大程度上依赖于人工特征构建,这将消耗大量的人力和时间成本,人为因素干扰会

造成特征噪声。深度学习方法有效地解决了这些问题 ,被广泛用于自然语言处理

中。在深度学习文本分类任务中 ,很多学者在特征获取阶段采用词嵌入（ Word

Embedding）技术避免人工设计特征,有效捕捉词汇隐藏的语义和语法特征。现

阶段词嵌入技术已经和深度学习紧密结合,这为文本分类的研究提供了新的思路。

而在文本分类中,中文文本存在特征稀疏、上下文依赖性强等特点,在进行处

理的过程中总会丢失较多的语义特征,特征获取不够全面。同时,在中文文本中还

存在由于拼写错误、同音词等对分类效果所造成的影响,如何有效地获取特征、

提高模型的准确率,是中文文本分类研究所面临的一个挑战。为了解决中文文本

分类中存在的这些问题,本文提出一种多特征融合的文本分类模型。在词向量的

基础上结合拼音字符特征,缓解拼写错误所带来的影响,并加入词性标记和汉字字

符特征作为特征补充以丰富语义信息,以便深度学习模型获取更全面的语义信息。

2 相关工作

随着深度学习的不断发展,与传统的自然语言处理方法相比,深度学习算法在

自然语言处理任务中取得了不错的效果。在文本分类任务中,最受欢迎的深度学

习方法主要包括：卷积神经网络（Convolutional Neural Network,CNN）和循

环神经网络（Recurrent Neural Network,RNN）。

卷积神经网络（CNN）是一个典型的空间上的深度神经网络,具有优异的特

征自抽取能力,能够显著降低文本分类中人工抽取特征的难度。很多学者在 CNN

的基础上进行了改进,并且可以达到预期的令人满意的性能。Kim

]

利用不同的滤

波器获取不同层面的语义信息,并利用多个卷积层获取深层的语义信息,与单层的

卷积相比,模型效果得到显著提升。Kalchbrenner 等

]

提出一种动态卷积神经网

络（ Dynamic Convolutional Neural Network,DCNN ）模型 , 采用动态（ k-

Max）池化获取句子语义特征,模型在问题和情感分类方面取得了不错的效果。

Johnson 等

]

提出一种词级别的深层卷积神经网络模型（ Deep Pyramid

Convolutional Neural Networks,DPCNN）,能够在有效获取多层次语义特征的

基础上,有效获取文本中的长期依赖信息。

循环神经网络（RNN）可以有效地学习近距离的语义特征,但存在梯度消失

或梯度弥散问题。因此,RNN 出现多个变种循环神经网络模型,如长短时记忆网

络（Long Short-Term Memory,LSTM）。在问题分类任务中,LSTM

]

有效解决

了 RNN 梯度回传过程中面临的消失和爆炸的问题,进一步优化了深度模型。虽然

LSTM 可以提取长距离的上下文语义特征 ,但结构复杂,时间代价大。针对 CNN

和 LSTM 自身存在的不足,王海涛等

]

将多层的 CNN 与 LSTM 相结合进行优势互

补。门控循环单元（Gated Recurrent Unit,GRU）网络结构相对 LSTM 而言更

简单

]

,能有效地提高模型训练时间。双向门限循环单元（ BiGRU）

]

通过双向

GRU 充分地利用上下文信息,记忆当前单词并实时更新这个时刻之前的所有单词

的信息,基于序列从而更好地预测。为了提升模型的性能,郑诚等

[10

]

将 CNN 与

BiGRU 相结合进行特征获取,有效缓解了特征丢失的问题。

在文本分类任务中,很多学者将深度学习与词嵌入技术相结合。词嵌入方法

中最流行的方法是 Word2Vec

[11

,12

]

。Word2Vec 是一种基于预测的词向量模型,有

CBOW（Continuous Bag-of-Word）和 Skip-Gram 两种训练模式。依据文本粒

度粗细的划分,词嵌入分为词语级别嵌入和字符级嵌入两种。在此基础上,很多学

者结合深度学习对文本特征从词级别和字符级别进行了深度拓展。对于词级别

特征扩展,为了提高文本分类的准确率,文献[3

]通过词级别特征与深度学习模型

相结合获取文本的抽象语义特征,准确率得到大幅度提升。陈钊等

[13

]

结合卷积神

经网络和传统词语情感序列特征,通过对文本中词语进行抽象表示获得了更高的

分类准确率。王海涛等

]

使用词嵌入技术将文本进行向量表示 ,并输入改进的

MLCNN（Merge-LSTM-CNN）中,准确率得到大幅度提升。在字符特征研究中 ,

刘敬学等

[14

]

提出一种字符特征的 CNN 和 LSTM 相结合的模型进行短文本分类,使

用字符嵌入保留原始文本信息,但是对于词语间的理解仍有所欠佳。为了丰富语

义信息,杨路辉等

[15

]

在词级别特征的基础上结合字符特征进行特征扩展,同时提取

浅层和深层字符级特征并融合,模型的效果提升显著。聂维民等

[16

]

在字粒度的基

础上结合词粒度和主题粒度,不断提高文本的特征表示能力,但涉及的词序关系范

围小。刘龙飞等

[17

]

则利用字特征挖掘微博文本特征,与词级别原始输入特征相比,

模型准确率更高。为了缓解中文文本中的拼写错误及其同音词所造成的语义理

解偏差,余本功等

[18

]

提出一种结合拼音字符和词的双输入卷积神经网络模型 CP-

CNN,并在采样层使用 k-Max 动态采样,增强模型特征的表达能力。

在文本分类任务中,鉴于每个词都具有不同的词性,在词性中也包含着一些重

要的语义信息。为了学习语篇中更深层次的抽象特征,有学者通过词性标注区分

词在句子结构或语义中的不同角色

[19

,20

,21

]

,有助于模型提取相应的特征。也有学者

在分类的过程中,探究了不同词性（名词、副词、形容词、情态动词、形容词

等）标签的影响,只保留对分类过程重要的语义特征,有效地消除了文本歧义,提高

了文本的分类性能

[22

,23

,24

,25

]

。为了提高区分术语的能力,文献[26

,27

]通过整合搭配

作为术语特征,对形容词、名词、动词等特定类型词类的确定,提取出搭配词,降低

了特征向量维数,提高了文档的表达能力。在词性研究中,Cheng 等

[28

]

通过嵌入将

词性部分映射为向量表示,然后直接将其输入带有词向量的模型中进行训练,在不

同的语言中通过添加词性特征

[29

,30

,31

,32

]

,分析更深层的语义信息,实验结果表明,词性

特征嵌入使所有分类器的分类准确率得到提高。为了更好地探索词语的句法信

息,Huang 等

[33

]

发现在神经网络中进行词性标记编码可以增强句子/短语的表示。

Shiguihara-Juárez 等

[34

]

考虑到文本中词法、语法和依赖特性的特征关系,利用词

性标签特性中的信息,并与单词相结合,有效提取句子中的特征。有学者在输入层

中构建词级别和词性特征双通道

]

,以及字符级别、词级别和词向量融合词性特征

的三通道

[35

]

,有效学习到句子内部的抽象语义信息。

鉴于深度学习领域 CNN 和 BiGRU 在文本分类任务中的显著效果,同时考虑

到在分类文本中,不同的词性所代表的重要性不同,而 Word2Vec 词向量忽略了词

性信息,同时为了弥补特征获取不充分的问题,本文提出了基于多种特征融合的文

本分类模型。多种特征融合的文本分类模型,结合 Word2Vec 获取词级别的原始

语义信息,在此基础上结合拼音字符特征、汉字字符特征和词性特征进行特征补

充,使模型更充分地保留语义特征,在减少特征丢失的同时,提高模型的语义表征能

力。同时,模型融合了 BiGRU 和 CNN,在有效获取文本上下文特征的同时,结合

CNN 获取局部特征,去除冗余特征,有效获取抽象的高级语义信息。通过多种优

化,不断丰富模型语义特征,以实现特征信息更加完整,进而提升模型分类性能。本

文方法通用性较强,无需人工提取特征,极大地减少了参数量,节约了大量的人力和

时间成本,满足了文本自动分类的需求。

3 基于多特征融合的文本分类模型

本文提出的多种特征融合文本分类模型,从多种语义层面进行语义理解,进一

步提高文本的表征能力,进而提高文本分类的准确率。对于多特征融合的文本分

类模型,首先需要对预处理后的待分类文本数据进行语义特征建模,包括词级特征

表示、词性 POS（Part-Of-Speech）特征表示、汉字字符特征表示和拼音字符

级特征表示,构建 4 种不同的输入表示;然后将处理好的特征表示分别输入 BiGRU

进行上下文语义特征获取;接着将获取的上下文语义特征输入多种滤波器的卷积

神经网络中进行局部特征获取,增强模型的特征学习能力;最后将多种不同的语义

特征融合,丰富特征信息,并输入 Softmax 层中进行分类,预测得到所需要的类别

标签。多特征融合的文本分类模型结构如图

所示。整个模型主要由语义特征

表示、上下文特征获取、局部特征获取、多特征融合和 Softmax 分类 5 部分组

成。

图 1

剩余19页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3543
资源: 1万+

基于多特征融合的中文文本分类研究.docx

基于优化PSO-BP的多特征融合图像识别算法研究.docx

文本分类算法.docx

基于特征融合的声乐分类研究.docx

基于多层次特征提取的胶囊网络文本分类研究.docx

基于ResNet及特征融合的场景文本检测技术研究

基于特征融合的电商图片文本检测.pdf

特征融合的中文专利文本分类方法研究.docx

计算机视觉与深度学习实战-以MATLAB和Python为工具_基于融合特征的以图搜图技术_项目开发案例教程.pdf

双向特征融合的快速精确任意形状文本检测.docx

融合预训练模型文本特征的短文本分类方法.docx

融合评论文本特征和评分图卷积表示的推荐模型.docx

基于字符级联合网络特征融合的中文文本情感分析.docx

融合通信技术

论文研究-基于多重特征选择和多分类器融合的文本层次分类研究.pdf

sentence-similarity.rar

文本挖掘及其在信息内容安全中的应用

王琦-《5G视频技术融合技术》.pdf

特征选择下融合图像和文本分析的在线短租平台信任计算框架 .docx

一种融合摘要与主体特征的混合神经网络文本主题分类方法.pdf

融合迁移学习与文本增强的中文成语隐喻知识识别与关联研究.docx

ChatGPT技术与多语种文本处理的融合探讨.docx

多模型融合的客服工单文本分类方法的研究与实现.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

最新资源