基于两阶段迁移学习的多标签分类模型研究.docx_根据图片及标签生成模型怎么做python资源-CSDN文库

版权申诉

文档资料

114 浏览量 2022-06-26 15:02:55 上传评论收藏 172KB DOCX 举报

资源推荐

资源详情

资源评论

1 引言

多标签分类任务中,同一样本可以同时属于多个类标签,表达的信息更加丰富,

因此近年来得到了学界广泛关注。但是相较于单标签分类任务 ,多标签分类中的

标记样本量少和类别不均衡问题更加突出,使已有的多分类方法往往不能获得预

期的分类效果

]

。标记样本量少是指多标签数据集整体规模小,而算法模型需要

从大量训练数据中学习特征,数据量不足时很容易出现过拟合的问题;类别不均衡

指数据集内部部分类别的样本数量多于其他类别样本数量的现象

]

,此时分类模型

会尽量学习多数类样本的信息而忽略少数类样本的信息。而且 ,两个问题往往同

时出现,单独解决一个并不能取得最佳的分类效果。

在现有的多标签分类模型中,迁移学习和上采样是解决多标签分类中标记样

本量少和类别不均衡的常用方法。迁移学习可以将在源领域大型数据集上学习

到的通用特征应用于目标领域,从而缓解标记样本量不足的问题;上采样方法则通

过补充少数类样本的数量解决类别不均衡问题,同时相比其他各类均衡化方法,也

更适合迁移学习。但是,此类模型存在两方面不足：一方面,标签之间的组合加大

了直接对多标签数据进行采样的难度;另一方面,当领域差别较大时,迁移学习只学

习到少量共性特征,对多标签分类模型的提升效果有限。

因此,本文考虑使用两阶段迁移学习,模型首先在通用领域上训练;然后迁移到

上采样均衡化后的目标领域单标签数据进行微调;最后迁移到多标签数据,从而更

好地解决标记样本量少和类别不均衡问题。模型既降低了采样难度 ,又同时学习

到通用领域的底层特征和目标领域的单标签样本特征,从而提升多标签分类效果。

2 文献综述

2.1 多标签分类

在多标签分类的研究中,主要有问题转化和算法转化两种方法

]

。问题转化法

将多标签分类转化为相似领域的问题进行求解;算法转化法则是对传统的单标签

分类方法进行改进,使其能适用于多标签数据的分类。在现实应用中很多领域标

注数据稀缺,因此,近年来关于小样本学习的多标签分类研究日益增多,如基于贝叶

斯理论

]

、孪生网络

]

、匹配网络

]

、原型网络

]

等模型以及迁移学习

]

的小样本

学习方法,可以解决标记样本量少带来的过拟合问题

[10

]

。针对多标签分类中的类

别不均衡问题,有数据层面和算法层面的方法。数据层面主要是各类样本采样方

法,如上采样

[11

]

、下采样

[12

]

和混合采样

[13

]

,使数据集更加均衡;算法层面主要是修改

已有的分类算法使之更适用于具体任务,更好地处理类别不均衡现象,如崔巍等

[14

]

提出一种新的不均衡关联分类算法 ACI。

2.2 迁移学习

迁移学习通过模拟人使用类比进行学习的能力 ,将在源领域中学到的知识“迁

移”应用到目标领域中,放宽了对训练数据的限制

[15

]

,可以很好地解决标注样本量少

的问题。迁移学习,尤其是深度迁移学习

[16

]

,被广泛应用于图像和文本领域的小样

本学习。例如,在图像领域,Yosinski 等

[17

]

描述了网络结构与图像可迁移性之间的

关系 , 指出了适宜迁移的网络类型与特征 , 并通过实验发现

LeNet、AlexNet、VGG、Inception、ResNet 等神经网络可有效支撑图像深度

迁移学习。在自然语言处理领域 ,BERT （ Bidirectional Encoder

Representations from Transformers ）

[18

]

是典型的迁移学习模型 , 采用

Transformer 特征提取器和双向预训练方式,具有强劲的语言表征能力,可以更加

高效地利用目标领域的小数据集。但是,在应用迁移学习的过程中,源领域和目标

领域的相似性对迁移效果有重要影响,当相似性高时,迁移效果更好

[19

]

。而目前迁

移学习中广泛使用的预训练模型主要基于大规模通用数据集

[20

]

,和部分专业领域

数据有较大差异,使模型效果受限。

2.3 上采样

上采样是用来解决类别不均衡的常用方法,该方法通过增加少量类的样本数

量平衡各类别样本的数量,从而避免分类模型侧重于多量类。并且,程磊等

[21

]

通过

实验发现,上采样相较于下采样、混合采样和 Focal Loss 函数等均衡化方法,更

适用于迁移学习模型。最简单的上采样方法是随机上采样

[22

]

,即直接对数据进行

复制,但是产生的样本不具有多样性,很容易造成过拟合。为解决该局限性,研究人

员提出了基于 K 邻近的上采样方法

[23

]

、基于半监督的过采样方法

[24

]

和基于深度神

经网络的上采样方法

[25

]

等。例如 , 在图像领域 , 可以通过生成式对抗网络

[26

]

（Generative Adversarial Networks,GAN ）等生成式模型对数据采样,从而解

决图像类别不均衡问题。相较于单标签数据,多标签数据中不仅有独立针对每个

标签的数量不均衡情况,也有不同组合的多个标签共同出现次数的不均衡情况

[27

]

。同时,在多标签数据采样中还可能出现标签样本集相互影响的问题

[28

]

,加大了

对多标签数据采样的难度。

3 模型构建

本文提出“通用领域-目标领域单标签数据-多标签数据”的两阶段迁移学习模

型,结合上采样方法实现多标签分类,如图

所示。

图 1

图 1基于两阶段迁移学习的多标签分类模型

Fig.1Multi-Label Classification Model Based on Two-Stage Transfer

Learning

3.1 一阶段迁移学习

使用一阶段迁移学习,从通用领域迁移到目标领域,解决标记样本量少的问题。

迁移学习过程分为两个阶段：训练基础模型和在目标领域微调。

基础模型的训练数据通常来自互联网公开的含有丰富标签的大规模通用数

据集,如 ImageNet

[29

]

和 Billion Words

[30

]

等。利用大规模通用数据集,可以训练出

性能出色的深度学习网络。

基础模型也可以直接选择知名实验室公开的预训练模型 ,这些模型是从高性

能服务器上训练得到,网络参数更优,也节省了时间成本。经过训练的基础模型可

以学习到通用领域上海量的信息,这样既可以有效缓解目标领域上由于数据量少

造成的过拟合问题,又可以使模型具有在通用领域上的特征敏感性,如图像领域的

底层视觉特征——颜色、纹理、形状等,从而提升分类效果。

微调是指在迁移学习中,将在大规模通用数据集上训练得到的模型参数作为

目标领域任务的初始化参数,重新训练该网络。在常用的迁移学习模型中,如卷积

神经网络（Convolutional Neural Networks,CNN ）、BERT 等,底层的特征中

通常包含更多的一般特征,适用于多个任务,而顶层的特征学习注重高级特征,这种

特征是针对具体任务的语义特征。因此,在重新训练时应冻结底层网络,调整高层

网络适应目标领域分类任务,达到迁移学习的目的。

3.2 二阶段迁移学习

在多标签分类中,许多问题转化法会将多标签分类转化为单标签分类任务来

解决,而算法转化法则直接在单标签分类方法的基础上修改,可见单标签分类任务

与多标签分类任务关联紧密,单标签数据中包含目标领域独有的高级特征和语义

信息,因此,具备单标签数据特征的模型可以更好地完成多标签分类任务。本文对

传统的迁移学习方法进行扩展,在其中引入单标签数据。采用两阶段迁移学习方

法,先从大规模通用数据集迁移到目标领域单标签分类数据,再从单标签分类数据

迁移到多标签分类数据,模型同时具有通用领域的底层特征和单标签样本特征,可

以更好地适应多标签分类任务,同时也有助于解决类别不均衡问题。

两阶段迁移学习方法的过程如下：首先将基础模型放在大规模数据集上进

行训练,或者直接下载公开的预训练模型 ,如 CNN（图像）、BERT（文本）等;

再采用单标签分类数据作为迁移学习模型第一步的目标数据,对分类模型进行微

调;最后使用多标签分类数据对模型进行微调,调整输出层使之适应多标签分类任

务,得到最终的模型。

3.3 数据均衡化

剩余12页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3691
资源: 1万+

基于两阶段迁移学习的多标签分类模型研究.docx

基于预训练模型的多标签专利分类研究.docx

基于稀疏表示和过程学习的迁移学习分类方法计算机分析.docx

论文研究-基于域相关性与流形约束的多源域迁移学习分类算法.pdf

大数据-算法-基于迁移学习的文本分类算法研究.pdf

基于动态平衡自适应迁移学习的流量分类方法.docx

基于迁移学习的垃圾图片分类模型

基于心脏病患病情况的评估模型研究.docx

基于机器学习的文本情感多分类的学习与研究.docx

基于微信小程序的移动学习活动教学模式构建研究.docx

基于微信公众号的移动学习资源的设计研究.docx

ChatGPT的模型迁移学习与迁移效应研究.docx

ChatGPT的模型微调与迁移学习方法研究.docx

ChatGPT技术的迁移学习与模型适应性研究.docx

基于标签迁移和深度学习的跨语言实体抽取研究.pdf

ChatGPT模型的泛化能力与迁移学习方法研究.docx

基于YNCIM模型的云南电网统一信息模型共享平台研究.docx

基于Python的上下班时间预测模型.docx

基于深度强化学习的码率自适应算法研究.docx

基于TCP-IP网络模型的计算机网络教学实验设计研究.docx

ChatGPT模型的迁移学习和跨领域应用方法研究及在实际任务中的迁移效果分析.docx

python+tensorflow+keras 基于Inception-v3模型迁移学习处理clatech256分类

基于迁移学习的二维CN故障检测模型开发的描述性研究

ChatGPT技术的生成模型调优与迁移学习方法研究.docx

基于深度-迁移学习的输电线路故障选相模型及其可迁移性研究

基于卷积神经网络的医学实体关系分类模型研究.docx

基于微信平台的高职英语的移动学习模式研究.docx

云迁移安全(一)：Gartner的5R安全迁移模型.docx

用于高分辨遥感影像场景分类的迁移学习混合专家分类模型.docx

最新资源