权重和样本特征,应用到目标小数据集中对模型进行初始化,然后展开训练。但
是该方法受到了相关领域大规模数据集的限制,无法很好地应用到缺少大规模
数据集的工作当中。
小样本的模型学习问题,在不使用大数据集辅助的情况下,文献[11]提出了
一种迭代提升欠采样模型(under sampling with iteratively boosting,USIB),进
行疾病预测。该方法迭代地从多数类样本中进行欠采样,构建多组弱分类器,通
过加权组合的方式集成一个强分类器,提高模型的学习能力。但是基于该方法
更多地关注错误分类和分类置信度不高的样本去改善模型的预测能力,并没有
真正实现数据生成的任务。
集成方法也是解决小样本学习的常用方法,通过融合集成技术和采样技术,
充 分 利 用 了 两 者 的 优 点 。 Liu 等 人 提 出 了 EasyEnsemble 集 成 算 法 ,结 合 了
Bagging 和欠采样技术
[12]
。在此基础上,Liang 和 Cohn 提出了 UBagging 算法,
该算法将 Bagging 应用到不平衡数据集训练中,不断增加负样本采样数量来训
练多个分类器,集成多个分类器提高整体分类性能
[13]
。融合集成技术和采样技
术的算法通过多次采样解决了单次采样中样本信息缺失问题,但是每次随机性
地采样,忽略了分类器之间的关系,限制了模型的整体性能。
另一种常用的方法是在已有数据集的基础上,进行特定技术的处理来增加
样本的数量。文献[14]提出了一种深度卷积生成对抗网络(deep convolutional
generative adversarial networks,DCGANs),通过设计生成器与判别器,学习图
像中物体到场景的层次化表征信息,最终生成新的图像数据集。文献[15]提出了
一种基于 Wasserstein GAN 的小样本数据增强方法,使用训练集样本训练 GAN
后生成模拟样本数据,扩增训练集样本规模。虽然 GAN 方法的生成不用考虑样
本属性间的内在联系,但是 GAN 在实际应用当中会存在一些问题:
(1)无法进行稳定的训练,导致生成模型生成无意义的输出,对于离散型数
据的学习效果较差;
(2)生成的数据的可解释性差,有时 GAN 生成的样本只是对真实样本的
简单改动,导致生成样本的多样性较差。
综上,已有的数据生成方法存在着随机性、盲目性,并且有模型参数选择和
复杂程度的限制。研究新的数据模型,并将其应用到相关工作当中具有重要意
义。
评论0
最新资源