没有合适的资源?快使用搜索试试~ 我知道了~
基于两阶段迁移学习的多标签分类模型研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 114 浏览量
2022-06-26
15:02:55
上传
评论
收藏 172KB DOCX 举报
温馨提示
试读
13页
基于两阶段迁移学习的多标签分类模型研究.docx
资源推荐
资源详情
资源评论
1 引言
多标签分类任务中,同一样本可以同时属于多个类标签,表达的信息更加丰富,
因此近年来得到了学界广泛关注。但是相较于单标签分类任务 ,多标签分类中的
标记样本量少和类别不均衡问题更加突出,使已有的多分类方法往往不能获得预
期的分类效果
[1
,2
]
。标记样本量少是指多标签数据集整体规模小,而算法模型需要
从大量训练数据中学习特征,数据量不足时很容易出现过拟合的问题;类别不均衡
指数据集内部部分类别的样本数量多于其他类别样本数量的现象
[3
]
,此时分类模型
会尽量学习多数类样本的信息而忽略少数类样本的信息。而且 ,两个问题往往同
时出现,单独解决一个并不能取得最佳的分类效果。
在现有的多标签分类模型中,迁移学习和上采样是解决多标签分类中标记样
本量少和类别不均衡的常用方法。迁移学习可以将在源领域大型数据集上学习
到的通用特征应用于目标领域,从而缓解标记样本量不足的问题;上采样方法则通
过补充少数类样本的数量解决类别不均衡问题,同时相比其他各类均衡化方法,也
更适合迁移学习。但是,此类模型存在两方面不足:一方面,标签之间的组合加大
了直接对多标签数据进行采样的难度;另一方面,当领域差别较大时,迁移学习只学
习到少量共性特征,对多标签分类模型的提升效果有限。
因此,本文考虑使用两阶段迁移学习,模型首先在通用领域上训练;然后迁移到
上采样均衡化后的目标领域单标签数据进行微调;最后迁移到多标签数据,从而更
好地解决标记样本量少和类别不均衡问题。模型既降低了采样难度 ,又同时学习
到通用领域的底层特征和目标领域的单标签样本特征,从而提升多标签分类效果。
2 文献综述
2.1 多标签分类
在多标签分类的研究中,主要有问题转化和算法转化两种方法
[4
]
。问题转化法
将多标签分类转化为相似领域的问题进行求解;算法转化法则是对传统的单标签
分类方法进行改进,使其能适用于多标签数据的分类。在现实应用中很多领域标
注数据稀缺,因此,近年来关于小样本学习的多标签分类研究日益增多,如基于贝叶
斯理论
[5
]
、孪生网络
[6
]
、匹配网络
[7
]
、原型网络
[8
]
等模型以及迁移学习
[9
]
的小样本
学习方法,可以解决标记样本量少带来的过拟合问题
[10
]
。针对多标签分类中的类
别不均衡问题,有数据层面和算法层面的方法。数据层面主要是各类样本采样方
法,如上采样
[11
]
、下采样
[12
]
和混合采样
[13
]
,使数据集更加均衡;算法层面主要是修改
已有的分类算法使之更适用于具体任务,更好地处理类别不均衡现象,如崔巍等
[14
]
提出一种新的不均衡关联分类算法 ACI。
2.2 迁移学习
迁移学习通过模拟人使用类比进行学习的能力 ,将在源领域中学到的知识“迁
移”应用到目标领域中,放宽了对训练数据的限制
[15
]
,可以很好地解决标注样本量少
的问题。迁移学习,尤其是深度迁移学习
[16
]
,被广泛应用于图像和文本领域的小样
本学习。例如,在图像领域,Yosinski 等
[17
]
描述了网络结构与图像可迁移性之间的
关 系 , 指 出 了 适 宜 迁 移 的 网 络 类 型 与 特 征 , 并 通 过 实 验 发 现
LeNet、AlexNet、VGG、Inception、ResNet 等神经网络可有效支撑图像深度
迁 移 学 习 。 在 自 然 语 言 处 理 领 域 ,BERT ( Bidirectional Encoder
Representations from Transformers )
[18
]
是 典 型 的 迁 移 学 习 模 型 , 采 用
Transformer 特征提取器和双向预训练方式,具有强劲的语言表征能力,可以更加
高效地利用目标领域的小数据集。但是,在应用迁移学习的过程中,源领域和目标
领域的相似性对迁移效果有重要影响,当相似性高时,迁移效果更好
[19
]
。而目前迁
移学习中广泛使用的预训练模型主要基于大规模通用数据集
[20
]
,和部分专业领域
数据有较大差异,使模型效果受限。
2.3 上采样
上采样是用来解决类别不均衡的常用方法,该方法通过增加少量类的样本数
量平衡各类别样本的数量,从而避免分类模型侧重于多量类。并且,程磊等
[21
]
通过
实验发现,上采样相较于下采样、混合采样和 Focal Loss 函数等均衡化方法,更
适用于迁移学习模型。最简单的上采样方法是随机上采样
[22
]
,即直接对数据进行
复制,但是产生的样本不具有多样性,很容易造成过拟合。为解决该局限性,研究人
员提出了基于 K 邻近的上采样方法
[23
]
、基于半监督的过采样方法
[24
]
和基于深度神
经 网 络 的 上 采 样 方 法
[25
]
等 。 例 如 , 在 图 像 领 域 , 可 以 通 过 生 成 式 对 抗 网 络
[26
]
(Generative Adversarial Networks,GAN )等生成式模型对数据采样,从而解
决图像类别不均衡问题。相较于单标签数据,多标签数据中不仅有独立针对每个
标签的数量不均衡情况,也有不同组合的多个标签共同出现次数的不均衡情况
[27
]
。同时,在多标签数据采样中还可能出现标签样本集相互影响的问题
[28
]
,加大了
对多标签数据采样的难度。
3 模型构建
本文提出“通用领域-目标领域单标签数据-多标签数据”的两阶段迁移学习模
型,结合上采样方法实现多标签分类,如图
1
所示。
图 1
图 1基于两阶段迁移学习的多标签分类模型
Fig.1Multi-Label Classification Model Based on Two-Stage Transfer
Learning
3.1 一阶段迁移学习
使用一阶段迁移学习,从通用领域迁移到目标领域,解决标记样本量少的问题。
迁移学习过程分为两个阶段:训练基础模型和在目标领域微调。
基础模型的训练数据通常来自互联网公开的含有丰富标签的大规模通用数
据集,如 ImageNet
[29
]
和 Billion Words
[30
]
等。利用大规模通用数据集,可以训练出
性能出色的深度学习网络。
基础模型也可以直接选择知名实验室公开的预训练模型 ,这些模型是从高性
能服务器上训练得到,网络参数更优,也节省了时间成本。经过训练的基础模型可
以学习到通用领域上海量的信息,这样既可以有效缓解目标领域上由于数据量少
造成的过拟合问题,又可以使模型具有在通用领域上的特征敏感性,如图像领域的
底层视觉特征——颜色、纹理、形状等,从而提升分类效果。
微调是指在迁移学习中,将在大规模通用数据集上训练得到的模型参数作为
目标领域任务的初始化参数,重新训练该网络。在常用的迁移学习模型中,如卷积
神经网络(Convolutional Neural Networks,CNN )、BERT 等,底层的特征中
通常包含更多的一般特征,适用于多个任务,而顶层的特征学习注重高级特征,这种
特征是针对具体任务的语义特征。因此,在重新训练时应冻结底层网络,调整高层
网络适应目标领域分类任务,达到迁移学习的目的。
3.2 二阶段迁移学习
在多标签分类中,许多问题转化法会将多标签分类转化为单标签分类任务来
解决,而算法转化法则直接在单标签分类方法的基础上修改,可见单标签分类任务
与多标签分类任务关联紧密,单标签数据中包含目标领域独有的高级特征和语义
信息,因此,具备单标签数据特征的模型可以更好地完成多标签分类任务。本文对
传统的迁移学习方法进行扩展,在其中引入单标签数据。采用两阶段迁移学习方
法,先从大规模通用数据集迁移到目标领域单标签分类数据,再从单标签分类数据
迁移到多标签分类数据,模型同时具有通用领域的底层特征和单标签样本特征,可
以更好地适应多标签分类任务,同时也有助于解决类别不均衡问题。
两阶段迁移学习方法的过程如下:首先将基础模型放在大规模数据集上进
行训练,或者直接下载公开的预训练模型 ,如 CNN(图像)、BERT(文本)等;
再采用单标签分类数据作为迁移学习模型第一步的目标数据,对分类模型进行微
调;最后使用多标签分类数据对模型进行微调,调整输出层使之适应多标签分类任
务,得到最终的模型。
3.3 数据均衡化
剩余12页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3691
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功