融合半监督学习与主动学习的细分领域新闻分类研究.docx资源-CSDN文库

版权申诉

59 浏览量 2022-06-26 11:24:31 上传评论收藏 321KB DOCX 举报

本文探讨的是在细分领域的新闻分类问题，这是一个重要的自然语言处理任务，尤其对于科技情报工作。传统的新闻分类通常按照宏观主题如娱乐、体育等进行，但细分领域新闻分类更关注特定子领域，如体育新闻中的足球、篮球等。然而，这类分类面临几个挑战：领域语义差异小、预设分类困难、可用的高质量标注数据稀缺，使得常规的开放域文本分类方法不适用。低资源自然语言处理是细分领域新闻分类的核心难题。由于缺乏专门针对新闻分类的标注数据，此类任务需要创新方法来降低类目设置和标注成本，同时提升分类器的泛化能力。为了解决这些问题，文章提出了一种融合半监督学习和主动学习的低成本方案。通过文本聚类找到代表性的新闻样本来帮助专家设定分类标准，接着在这些样本上使用集成学习训练初步的分类器。利用主动学习策略迭代优化分类器，逐步增加最具价值的标注数据，提高模型性能。相关研究中，新闻分类方法主要分为粗粒度和细粒度两类。粗粒度分类主要验证算法的可靠性，而细粒度分类则关注具体应用场景，如公共安全、化工、船舶工业和金融等领域。这些研究大多依赖有监督学习，需要大量人工标注数据，限制了其在新领域的应用和迁移。对于低资源文本分类，研究者已经探索了多种策略，包括迁移学习、远监督学习和自训练半监督学习。迁移学习利用预训练模型，如BERT，来处理特定领域的文本。远监督学习可以从领域知识中自动获取标注信息。自训练半监督学习则通过初始标注数据训练分类器，然后在未标注数据上进行预测，选择高置信度样本进行迭代。然而，这种方法需要平衡噪声和样本选择之间的关系，防止过早引入噪声。本文提出的融合半监督学习与主动学习的方案旨在解决细分领域新闻分类的挑战，通过有效利用有限的标注数据和无监督信息，提高分类的准确性和效率。这种方法不仅减少了对大量人工标注的依赖，还可能为其他低资源自然语言处理任务提供借鉴。未来的研究可能会进一步优化主动学习策略，提高样本选择的智能性，以及探索更多元的预训练模型和半监督技术的结合，以适应不断变化的细分领域需求。

资源推荐

资源详情

资源评论

1 引言

针对特定细分领域新闻开展技术监测是科技情报工作中常见的任务 ,新闻文

本的自动分类又是其基础。区别于传统的以粗粒度主题（如娱乐、体育、军事

等）为分类依据的新闻分类体系,细分领域新闻分类是指针对某一领域的子领域

新闻根据特定任务需要构建细分分类体系并分类,如体育新闻可以根据体育项目

不同划分为足球、篮球、乒乓球等细分领域。与涵盖广泛主题的开放域文本不

同,细分领域文本存在语义区分度低、再细分类目预设困难、优质现成语料稀缺

而人工标注难度较高等一系列问题,使传统面向开放域的文本分类方法难以直接、

有效地应用于细分领域新闻分类上。

由于在大多数细分领域中缺乏针对新闻分类的标注语料 ,因此细分领域新闻

分类任务是一个典型的低资源自然语言处理问题,其难点主要集中在两方面：一

方面,细分领域新闻的类目划分受资源内容分布情况决定,现有分类法中的类目不

适合网络新闻分类,即使是领域专家参与,也难以在未经资源调研的状态下设计出

能有效概括指定领域新闻内容的类目;另一方面,常用的文本分类算法往往依赖标

注语料作为训练集,而大多数细分领域缺乏优质的已标注文本分类语料,且由于数

据集不平衡、长短文本并存、主题区分度不高

[1]

等客观问题的存在,使人工标注语

料成本过高。

上述问题导致在细分领域新闻分类任务上难以直接运用通用的文本分类算

法,且即使人工参与,其效率也较为低下。因此,如何降低类目设置和语料标注的成

本并提高分类器泛化性能是需要解决的关键问题。因此 ,本文提出一套完整的融

合半监督学习和主动学习的低成本细分领域新闻分类方案。其思路是通过文本

聚类筛选代表性新闻以辅助专家设定类目,并在代表性样本构成的训练集上使用

集成学习训练初始分类器,最后利用主动学习方法迭代优化初始分类器。

2 相关研究

2.1 细分领域新闻分类相关研究

新闻文本分类研究主要分为两种：一种是采用以政治、军事、娱乐等作为

分类大纲,以主题为主的粗粒度分类体系,这类研究主要以新闻文本作为实验对象

来判定分类算法的可靠性

[2,3, 4]

;另一种则是以舆情监测、情感分析、情报追踪等实

际需求为背景,针对特定领域新闻构建细粒度分类体系和分类模型,以解决实际任

务。例如,在公共安全领域突发事件新闻分类研究中,张永奎等

[5]

和杨丽英等

[6]

依据

《国家突发公共事件总体应急预案》构建公共安全领域突发事件细分分类体系,

并采用传统的有监督机器学习方法,基于类别关键词构建文档向量空间,对公共安

全领域突发事件新闻进行分类;夏华林等

[7]

在此细分分类体系的基础上构建类别关

键词规则库,将规则与统计方法相结合,进一步提高了公共安全领域突发事件新闻

分类的效率和准确率 ; 宋英华等

[8]

则采用深度学习方法 , 将卷积神经网络

（ Convolutional Neural Networks,CNN ）、长短期记忆网络（ Long Short-

Term Memory,LSTM）和多层感知机（Multi-Layer Perceptron,MLP ）融合构

建集成模型,显著地提升了分类模型对公共安全领域多级突发事件新闻的识别与

分类效果。此外,葛艳等

[9]

采用 BiLSTM 并结合注意力机制对化工领域新闻进行分

类;朱芳鹏等

[10]

提出一套基于改进 TF-IDF 和 LSA 的面向船舶工业新闻的分类流

程;张晓龙等

[11]

则构建金融领域新闻文本分类体系,采用预训练模型和标签传播算

法进行数据增强,并在多个模型上进行对比实验,取得了较好的结果。

综上,当前细分领域新闻分类研究以有监督学习方法为主,虽然取得了较好的

结果,但这依赖大量的人工标注语料,且难以实现领域迁移。

2.2 低资源文本分类相关研究

目前,关于细分领域新闻分类语料依赖问题的相关研究较少,但在通用文本分

类任务上,针对标注语料少这一低资源问题已有较多研究。例如,张世同

[12]

采用迁

移学习方法 , 使用 BERT （ Bidirectional Encoder Representation from

Transformers）预训练模型对铁路安全领域文本进行分类。何宇虹等

[13]

在中文

口语领域采用远监督学习方法获取领域知识,有效地解决了细分领域资源稀缺的

问题。He 等

[14]

和和 Liu

[15]

等分别在生物医学领域和电子商务领域文本分类任务中

使用少量初始标注语料训练分类器后,采用自训练半监督学习方法,降低了细分领

域对语料的依赖并提高了准确性。

综上,解决文本分类中低资源问题的方法有以下几种。

（1）自训练半监督学习方法

[16]

。通过少量标注语料训练得到原始分类器,然

后使用原始分类器在未标注语料进行预测,筛选出置信度较高的语料并添加进分

类器。这种方法的问题是置信度阈值与噪声间难以平衡,高阈值会影响增量样本

规模,而降低阈值则易造成噪声的累积

[17]

。

（2）标签传播算法（Label Propagation Algorithm,LAP）

[18]

。标签传播算

法认为每个节点的标签应该与邻近节点相似,在标签传播的过程中,每个节点根据

周围的邻近节点调整自己的标签并向未标注的节点进行传播,不断迭代扩大标注

样本

[19]

。该算法受数据稀疏的影响且容易造成类目间的数据不平衡,在标签传播

的过程中会形成噪声的累积

[20,2 1]

。

（3）迁移学习方法

[22]

。该方法能够很好地解决文本分类中的低资源问题,但

是依然需要源领域为目标领域提供大量的标注语料

[23]

。

（4）主动学习方法

[24]

。主动学习是使用少量标注语料训练初始分类器,通过

相应的学习规则从未标注语料中筛选出高价值的样本进行人工标注,并加入原始

分类器中进行优化迭代,该方法能够很好地减少分类器对标注语料的需求

[25]

。

2.3 主动学习相关研究

主动学习与其他半监督学习方法的不同之处在于其补充训练集的少量语料

是通过学习规则筛选出的人工标注的高价值样本,这能够减少分类器对噪声的累

积。该方法已被大量研究证明能够显著地减少人工标注语料的数量,使分类器仅

依靠小样本就能达到令人满意的结果。在智能电网领域,年素磊等

[26]

通过主动学

习方法自动标注日志文本,有效地减少了人工标注语料,提高了分类效率。毕秋敏

等

[27]

提出一种基于主动学习的协同训练方法,与单纯协同训练方法、自学习方法

和基于不确定的协同训练方法进行比较,在多个数据集上证明基于主动学习能够

降低噪声的累积。陈果等

[28]

在科技论文句子功能识别任务中证实了主动学习方案

在文本分类中的可行性,但随着主动学习轮次的增加会因为噪音的累积使分类性

剩余11页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 4494
资源: 1万+

融合半监督学习与主动学习的细分领域新闻分类研究.docx

论文研究-结合半监督与主动学习的时间序列PU问题分类.pdf

一种半监督学习的金融新闻文本分类算法.docx

有关半监督学习的若干问题及研究

基于微信公众号的移动学习资源的设计研究.docx

面向云网融合的新型城域网架构关键问题研究.docx

机器学习实验报告-朴素贝叶斯学习和分类文本.docx

基于微信平台的高职英语的移动学习模式研究.docx

邮件加密软件PGP的安全研究与应用.docx

新闻分类数据文件

论文研究-基于半监督技术的多分类器融合策略研究.pdf

网络营销学习心得体会多篇.docx.docx

关于怀化学院2018年校级大学生研究性学习.docx

图像处理研究.docx

基于深度学习的机器人应用研究.docx

当代中国歌剧分类研究.docx

论文研究-基于主动学习策略的半监督聚类算法研究.pdf

网络安11全细分领域分析.docx

融合一致性正则与流形正则的半监督深度学习算法.docx

浅析511G技术在工业互联网领域的应用研究.docx

2024 程序员学习路线规划及课程体系介绍.docx

信息技术与学科融合学习心得体会.docx

利用Matlab实现基于小波变换的遥感图像融合.docx

最新资源