Figure 1. EnsNet horizontal link structure
下载: 全尺寸图片 幻灯片
将低层图像细节与高层抽象特征结合,其方式为将 Encoder 各层提取的特征分别经过
1×1 的 Shrinking 降维卷积层,3×3 的 Nonlinear 非线性变换卷积层,1×1 的 Expanding 还原
卷积层,并与各对应 Upsampling Block 转置卷积层的输出特征图逐元素相加.三个小卷积核
在提升网络运行效率的前提下,能够获得更大的感受野.此外,EnsNet 引入一个 VGG16 模
型作为检验工具.
损失函数方面,EnsNet 首先计算各层输出的特征图在 OCR 字符区域和背景区域相比
标签图片的 L1 Loss,从不同图像尺度上获取图像信息,得到多尺度回归损失函数
Multiscale Regression Loss (L
m
),其表达式见式(1).
Lm(M,Iout,Igt)=∑i=1nλi(∥Mi⊙(Iout (i)−Igt(i))∥1+α∥∥(1−Mi)⊙(Iout (i)−Igt(i))∥∥1)Lm(M,Iout,Igt)=∑i=1nλi(‖Mi⊙(Iout (i)−Igt(i))‖1+α‖(1−Mi)⊙(Iout (i)−Igt(i))‖1)
式中,I
out(i)
,I
gt(i)
,M
i
分别代表 Decoder 解码器第 i 层的输出图,Groundtruth 基准图和
对应第 i 层输出尺寸的 Mask.这里的 Mask 设计为将 OCR 字符区域像素定为 1,其余背景区
域像素皆定位 0 的 binary mask.☉表示点对点像素值相乘; ‖·‖
1
为 L1 loss; λ
i
和 α 分别代表第 i
层所占权重和背景区域所占权重.其中,第三层、第五层及最后一层的输出分别是输入图像
尺寸大小的 1,1/2,1/4,实际训练中,α 设置为 6,λ
i
在第三到第五层分别设置为 0.6,
0.8 和 1,旨在更深层获得更大的权重.
其次,EnsNet 将模型生成图与标签图分别作为 VGG16 输入,并在第 1、2、3 个池化
层中取特征值,计算两者差值,实现对生成图与标签图不同特征的惩罚,得到内容损失函
数 Content Loss (L
c
),表达式见式(2).
Lc=∑n=1N−1∥An(Iout )−An(Igt)∥1+∑n=1N−1∥An(Icomp )−An(Igt)∥1Lc=∑n=1N−1‖An(Iout )−An(Igt)‖1+∑n=1N−1‖An(Icomp )−An(Igt)‖1
式中,I
out
和 I
gt
分别代表生成器输出图像和 groundtruth; I
comp
为保留生成图像 OCR 文字
区域,将其余背景区域替换成 groundtruth 得到的合成图像.A
n
(·)表示图像经过 VGG16 第 n
个 pooling 层得到的 activation map.L
c
函数前半部分计算了生成图像与 groundtruth 经过
VGG16 得到的各层特征图 L1 loss 之和,后半部分针对 OCR 字符部分进行相同计算比较.
两者相加,从特征图角度对生成器输出图像效果,特别是 OCR 字符部分效果进行了评判.
再次,EnsNet 通过计算各图像内部相邻元素的 L1 Loss,得到 Total Variation Loss (L
tv
)
实现对图像的整体降噪,该部分不涉及生成图像与 ground truth 的对比,表示式见式(3).
Ltv=∑i,j∥∥Ii,jout −Ii+1,jout ∥∥1+∥∥Ii,jout −Ii,j+1out ∥∥Ltv=∑i,j‖Iout i,j−Iout i+1,j‖1+‖Iout i,j−Iout i,j+1‖
最后,EnsNet 针对 OCR 字体部分和背景部分的衔接部分带入损失函数,避免两者衔
接过于突兀,成为纹理损失函数 Texture Loss (L
T
).生成器输出损失和保留生成图像 OCR 文
字区域输出损失分别见式(4)和式(5).
LTout =∑n=1N−1∥∥∥∥1CnHnWn((An(Iout )T(An(Iout ))−((An(Igt))T(An(Igt))∥∥∥∥1LTout =∑n=1N−1‖1CnHnWn((An(Iout )T(An(Iout ))−((An(Igt))T(An(Igt))‖1
LTcomp =∑n=1N−1∥∥∥∥1CnHnWn((An(Icomp )T(An(Icomp ))−((An(Icomp ))T(An(Icomp ))∥∥∥∥1LTcomp =∑n=1N−1‖1CnHnWn((An(Icomp )T(An(Icomp ))−((An(Icomp ))T(An(Icomp ))‖1
评论0
最新资源