基于EnsNet与MCGAN级联处理的字符样本扩充方法.docx资源-CSDN文库

版权申诉

183 浏览量 2022-11-30 09:30:29 上传评论收藏 1.52MB DOCX 举报

资源详情

资源评论

1. 引言

在分类任务中，数据不平衡是最为常见的问题之一.数据不平衡又称类不平衡，其中数

据量较充裕的为多数类，反之为少数类.在不同场景下，多数类与少数类数量差别小到几个

百分点，多到几个数量级，后者称为严重不平衡.如今，基于深度学习的分类器已经被运用

到不同类别图像、音频、文字的识别工作中，并取得显著成果.但面对严重不平衡数据集

时，如果训练数据不做任何预处理，模型可能在多数类数据识别中取得不错成绩，但在少

数类数据验证中差强人意.当任务重心放在少数类识别上时，模型识别效果便亟待提升.类不

平衡问题几乎分布在所有数据领域，如金融、医疗、生物等.

在模型训练过程中，多数类数据特征由于类别样本出现频率高，模型特征能被快速学

习并表达，而在少数类数据特征中由于类别样本出现频率低，模型特征较难有效被学习.因

此，当各类训练数据量大致接近时，模型对各类数据识别效果较好.在数据预处理中将少数

类数据进行扩充与增量，已成为不平衡类数据在模型训练前的必经操作.

在所有数据扩充方法中，最直观的就是直接将少数类数据多倍复制.当少数类仅为轻微

不平衡时，少数类中数据被随机抽取并复制，随后加入原始数据集.然而，神经网络对作为

训练集的数据有一定记忆效果，简单高频复制数据经常会导致模型训练过拟合.因此，数据

集复制常与数据变换相结合，达到数据扩充的效果.经典数据变换分为线性与非线性，包括

旋转、镜像、拉伸、切割、弹性变化等

[1]

.这些简单变换不会对原图造成严重损坏，也不会

形成认知外的变化，但可以为模型提供不同视角的数据.数据变换通常对模型的识别效果有

一定提升，原因之一是变换后的数据能够一定程度上防止模型过拟合

[2]

.另外，含卷积网络

的模型本身对旋转和缩放并不具备敏锐的洞察力

[3]

，原因是旋转和缩放后的图片并不具备

卷积一致性.因此，数据变换方法能够将各种形变引入数据集，在理论上对模型的鲁棒性与

泛化性有一定帮助.

生成对抗网络(GAN)最初被设计成通过非结构化的随机数据合成图像，将合成图像与

真实图像通过识别器打分，并反馈到生成器进行模型参数更新

[4]

.在训练过程中，生成器与

识别器进行零和博弈，理论上生成器最终能合成以假乱真的图像，使识别器无法辨别真假.

之后提出的 CycleGAN 通过将两个生成对抗网络进行组合，达到输入输出均为图像的效

果，不需要图像一一对应仍能学习到两个图片所属域关联域映射

[5]

.在 GAN 的基础上，研

究者们针对模型瓦解、梯度消失、训练过程不稳定等问题，提出了各种构想与设计.Alec

Radford 提出了一套更稳定的结构体系来训练对抗网络，但当训练过程太长时，部分滤波器

会进入单震荡模式，训练不再有效

[6]

.Tim Salimans 提出了多种技巧来应对模型前期的不稳

定训练阶段，并将 Inception Score 作为评估生成模型质量的重要判据推广开来

[7]

.Martin

Arjovsky 通过在理论层面对 GAN 的各项问题进行分析

[8]

，提出了 WassersteinGAN 进行修

补，并给出多项训练建议

[9]

当前深度学习在分类、识别、聚类等各领域的成功有一个前提：模型训练数据集与验

证数据集的分布与特征域类似.当数据集的分布发生变化，绝大多数训练好的模型都需要利

用对应分布和特征域的数据进行重新训练.然而，数据的重新收集、清洗处理、打标签、模

型的重建与重新训练在大多数应用领域中都耗时耗力.在这种情况下，深度学习非常需要迁

移学习的帮助.在现实世界中，人类能轻易且自然地观察与应用迁移学习.如已知柑橘的形状

与特征，重新学习识别橙子是水到渠成的事，类似的，掌握一种弦乐器对学习另一种弦乐

器也大有帮助.人类这种“学习如何学习”的能力是迁移学习领域研究的最初动机与灵感，并

指导机器学习利用某领域的先验知识来更快更好地学习相似领域全新知识

[10]

当基于 GAN 的样本生成以数据扩充为目的时，其隐含前提通常为样本数据不足.GAN

网络同样基于深度学习模型，其生成图像真实性与训练样本数量密切相关，因此 GAN 本

身在训练数据不充裕的情况下同样无法保证生成图像质量，形成“死循环”.本文将迁移学习

模型与生成模型相结合，不仅能从不同角度分别进行数据扩充，同时也能一定程度上解决

生成模型数据量不足的问题，形成数据生成闭环.具体的，本文涉及的数据为票据 OCR 字

符，选取 EnsNet 生成模型和 MCGAN 迁移模型，两组网络分别实现背景风格迁移以及字

体风格迁移，在满足样本多样性扩充的前提下，将两组迁移模型进行有效串联，实现样本

扩充.

2. EnsNet 与 MCGAN 模型

2.1 EnsNet 模型介绍

EnsNet 模型基于传统生成对抗网络 GAN，在 GAN 的基础上进行多处修改与优化，

并通过与相对应的损失函数结合，对生成图像的真实性有一定提升.主体部分中，生成器为

传统 Encoder-Decoder 结构，其中 Encoder 为 Resnet18，Decoder 由 5 个卷积核大小为 2，

卷积步长为 2，特征图填充宽度为 1 的转置卷积层构成.在 Encoder-Decoder 结构中，卷积层

越接近外层，该层感受野越小，提取特征越具体，相反在高层，卷积层具有较大感受野，

能够获取更抽象的特征.EnsNet 在传统 Encoder-Decoder 结构上，加入 Lateral Connection(横

向连接)

[11]

，其架构图见图 1.

图 1 EnsNet 横向链接结构

Figure 1. EnsNet horizontal link structure

下载: 全尺寸图片幻灯片

将低层图像细节与高层抽象特征结合，其方式为将 Encoder 各层提取的特征分别经过

1×1 的 Shrinking 降维卷积层，3×3 的 Nonlinear 非线性变换卷积层，1×1 的 Expanding 还原

卷积层，并与各对应 Upsampling Block 转置卷积层的输出特征图逐元素相加.三个小卷积核

在提升网络运行效率的前提下，能够获得更大的感受野.此外，EnsNet 引入一个 VGG16 模

型作为检验工具.

损失函数方面，EnsNet 首先计算各层输出的特征图在 OCR 字符区域和背景区域相比

标签图片的 L1 Loss，从不同图像尺度上获取图像信息，得到多尺度回归损失函数

Multiscale Regression Loss (L

)，其表达式见式(1).

Lm(M,Iout,Igt)=∑i=1nλi(∥Mi⊙(Iout (i)−Igt(i))∥1+α∥∥(1−Mi)⊙(Iout (i)−Igt(i))∥∥1)Lm(M,Iout,Igt)=∑i=1nλi(‖Mi⊙(Iout (i)−Igt(i))‖1+α‖(1−Mi)⊙(Iout (i)−Igt(i))‖1)

(1)

式中，I

out(i)

，I

gt(i)

，M

分别代表 Decoder 解码器第 i 层的输出图，Groundtruth 基准图和

对应第 i 层输出尺寸的 Mask.这里的 Mask 设计为将 OCR 字符区域像素定为 1，其余背景区

域像素皆定位 0 的 binary mask.☉表示点对点像素值相乘; ‖·‖

为 L1 loss; λ

和 α 分别代表第 i

层所占权重和背景区域所占权重.其中，第三层、第五层及最后一层的输出分别是输入图像

尺寸大小的 1，1/2，1/4，实际训练中，α 设置为 6，λ

在第三到第五层分别设置为 0.6，

0.8 和 1，旨在更深层获得更大的权重.

其次，EnsNet 将模型生成图与标签图分别作为 VGG16 输入，并在第 1、2、3 个池化

层中取特征值，计算两者差值，实现对生成图与标签图不同特征的惩罚，得到内容损失函

数 Content Loss (L

)，表达式见式(2).

Lc=∑n=1N−1∥An(Iout )−An(Igt)∥1+∑n=1N−1∥An(Icomp )−An(Igt)∥1Lc=∑n=1N−1‖An(Iout )−An(Igt)‖1+∑n=1N−1‖An(Icomp )−An(Igt)‖1

(2)

式中，I

out

和 I

分别代表生成器输出图像和 groundtruth; I

comp

为保留生成图像 OCR 文字

区域，将其余背景区域替换成 groundtruth 得到的合成图像.A

(·)表示图像经过 VGG16 第 n

个 pooling 层得到的 activation map.L

函数前半部分计算了生成图像与 groundtruth 经过

VGG16 得到的各层特征图 L1 loss 之和，后半部分针对 OCR 字符部分进行相同计算比较.

两者相加，从特征图角度对生成器输出图像效果，特别是 OCR 字符部分效果进行了评判.

再次，EnsNet 通过计算各图像内部相邻元素的 L1 Loss，得到 Total Variation Loss (L

)

实现对图像的整体降噪，该部分不涉及生成图像与 ground truth 的对比，表示式见式(3).

Ltv=∑i,j∥∥Ii,jout −Ii+1,jout ∥∥1+∥∥Ii,jout −Ii,j+1out ∥∥Ltv=∑i,j‖Iout i,j−Iout i+1,j‖1+‖Iout i,j−Iout i,j+1‖

(3)

最后，EnsNet 针对 OCR 字体部分和背景部分的衔接部分带入损失函数，避免两者衔

接过于突兀，成为纹理损失函数 Texture Loss (L

).生成器输出损失和保留生成图像 OCR 文

字区域输出损失分别见式(4)和式(5).

LTout =∑n=1N−1∥∥∥∥1CnHnWn((An(Iout )T(An(Iout ))−((An(Igt))T(An(Igt))∥∥∥∥1LTout =∑n=1N−1‖1CnHnWn((An(Iout )T(An(Iout ))−((An(Igt))T(An(Igt))‖1

(4)

LTcomp =∑n=1N−1∥∥∥∥1CnHnWn((An(Icomp )T(An(Icomp ))−((An(Icomp ))T(An(Icomp ))∥∥∥∥1LTcomp =∑n=1N−1‖1CnHnWn((An(Icomp )T(An(Icomp ))−((An(Icomp ))T(An(Icomp ))‖1

(5)

剩余16页未读，继续阅读

评论收藏

内容反馈

版权申诉