面向自然场景的中文文本检测.docx资源-CSDN文库

版权申诉

75 浏览量 2022-12-01 09:06:43 上传评论收藏 1.47MB DOCX 举报

资源推荐

资源详情

资源评论

1. 引言

文本在日常生活中无处不在，其携带着丰富且精确的信息.自然场景文本检测技术可以

广泛地应用到自动驾驶、网络安全、地理定位、智能交通等领域.中文是承载文化的重要工

具，因此，研究自然场景中文文本检测有着重要意义.但自然场景图像背景复杂，且中文文

本具有不同尺度和形状，包括水平、多方向和弯曲的文本，因此检测文本实例区域具有一

定的挑战性.传统文本检测方法主要基于滑窗和强连通分支，其步骤繁多且鲁棒性和可靠性

差.目前基于深度学习的场景文本检测方法大致分为基于回归，基于组件和基于分割三类.

基于回归的方法分为一阶段法和二阶段法.一阶段法直接回归文本框的坐标，二阶段法

包括生成候选文本框和细化文本框.两阶段法检测精度高，但计算复杂度高.廖等人

[1]

提出的

Textboxes 算法，其修改卷积核锚定比例和形状以适应文本的各种纵横比.大多数基于回归

的算法利用四边形边界框定位文本，其检测任意形状文本效果差.

基于组件的方法首先定位单个部分或字符，再后处理将其组合成一个字符或单词.黄等

人

[2]

提出了 CTPN 算法准确定位水平文本，但无法检测不规则文本.Shi 等人

[3]

提出了

SegLink 算法，用多尺度 SSD

[4]

作为主干网络，先检测局部片段，再按照其合并规则将相应

片段进行连接得到最终的文本行，但其检测弯曲文本效果差.

基于分割的方法是在像素级别推断分割出图像中的文本.2018 年，Lyu 等人

[5]

将 Mask

R-CNN

[6]

应用于文本行检测并提出 Mask TextSpotter 算法，在字符级别上进行文本分割，其

可以检测任意形状的文本，但需要字符级标注来进行训练.邓等人

[7]

提出 PixelLink 算法，通

过预测不同文本实例之间的像素连接来分离彼此靠近的文本.但其需要针对不同数据集调整

pixel 和 link 两个阈值并设计不同的后处理方法，其次是模型检测速度很慢，且无法有效处

理背景复杂的数据.2019 年，王等人

[8]

提出 PSEnet 算法，以渐进比例扩展方式分割距离相

近的文本实例，其检测弯曲文本的效果优于前者算法，但它需要合理的选择和优化超参

数.2020 年，廖等人

[9]

提出可微分模块 DB 解决了训练带来的梯度不可微问题.但是，它只注

重预测正确标签的准确性，而忽略了其他非正确标签的差异，从而导致学习到的特征比较

分散.实际自然场景中文本不规则且背景复杂，大多数基于分割的算法后处理步骤复杂，且

无法解决彼此相邻文本的覆盖问题.为了解决以上这些问题，本文提出一种融合注意力机制

的多尺度自然场景中文文本检测方法(Multi-scale natural scene Chinese text detection method

fused with attention mechanism, MSAM).

2. 融合注意力机制的多尺度网络

2.1 总体网络架构

本文提出的 MSAM 网络架构如图 1 所示，具体分为三个模块，分别是特征提取模

块，特征融合模块和改进的可微二值化模块(Enhanced Differentiable Binarization, EDB).本文

主要内容如下：为了显著减少模型的体积和推理时间，采用 Resnet18 作为轻量级主干网络.

与其他大型网络相比，Resnet18 的浅层网络导致 FPN 提取特征不足，此外，其感受野小会

导致漏检长中文文本.因此，将 FPN 与改进的空间空洞金字塔分支(Improved Atrous Space

Pyramid Pooling, IASPP)并行提取足量的文本信息特征，同时增大感受野捕捉长文本特征信

息.针对上方模块 ASPP 下采样时特征图的局部信息与边缘信息的缺失问题，增加下方模块

与上方模块 ASPP 联合降低分辨率的损失.针对特征图的分布不确定性，在 FPN 分支中嵌入

平衡注意力机制(Balanced attention mechanism, BAM)对特征进行处理，提取有效文本特征.

针对正负样本之间的不平衡性和模型检测速率慢的问题，采用 DB 模块并加权概率图与阈

值图损失函数，同时在二值图中引入对数化的 AC Loss，将分割问题转变为求解能量泛函

最小值，当能量达到最小时，活动轮廓收敛至检测的文本边缘，进而增强模型的泛化能力.

图 1 MSAM 网络架构

Figure 1. MSAM Network Architecture

下载: 全尺寸图片幻灯片

2.2 特征提取与注意力模块

FPN 如图 2 所示，自底向上分别提取 1/2, 1/4, 1/8, 1/16, 1/32 不同尺度特征图，分别记

为 C

1

, C

2

, C

3

, C

4

, C

5

.自顶向下将 C

2

, C

3

, C

4

, C

5

分别上采样 1 倍、2 倍、4 倍和 8 倍至 1/4 尺度

大小并横向连接至前一层特征. 横向连接如图 2 右下角放大区域所示，先将高层特征图进

行 2 倍上采样再将其与经过 1×1 卷积层的前一层特征融合.再者使用 3×3 卷积核分别处理已

融合的特征图来生成具有相同的尺度大小的 P

2

, P

3

, P

4

, P

5

特征映射. 最后，将 P

2

, P

3

, P

4

, P

5

级联得到特征 F

0

.

剩余13页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3676
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip