论文研究-Attention-YOLO：引入注意力机制的YOLO检测算法.pdf

论文研究

需积分: 42 66 浏览量 2019-09-12 00:00:57 上传评论 12 收藏 1.39MB PDF 举报

资源推荐

资源详情

资源评论

计算机工程与应用

www.ceaj.org

2019，55（6）

1 引言

目标检测

[1]

是计算机视觉领域中最具有挑战性的问

题之一，同时它也被广泛应用于人脸检测

[2]

、自动驾驶

[3-4]

、

行人检测

[5]

等许多领域。目标检测任务通常包括标记出

所给图片中待检测物体的边界框，并且判断边界框中的

物体属于哪一类别。传统的目标检测可以分为三个步

骤：首先，选取感兴趣区域，考虑到待检测的物体可能出

现在图片中的任一位置，同时其大小比例也不是固定

的，通常采用多尺度、多长宽比的滑动窗口技术

[6]

来扫描

整个输入图片。尽管这种技术可以较好地标记出所有

可能出现待检测物体的位置，但是由于扫描时无差别地

对待每一个区域，导致计算量巨大，并且会产生冗余的

标记窗口。其次，从标记的区域中提取特征，常用的有

SIFT

[7]

、HOG

[8]

以及 Haar-li ke

[9]

等手工特征。但是由于外

Attention-YOLO：引入注意力机制的 YOLO检测算法

徐诚极，王晓峰，杨亚东

上海海事大学信息工程学院，上海 201306

摘要：实时目标检测算法 YOLOv3的检测速度较快且精度良好，但存在边界框定位不够精确、难以区分重叠物体

等不足。提出了 Attention-YOLO 算法，该算法借鉴了基于项的注意力机制，将通道注意力及空间注意力机制加入特

征提取网络之中，使用经过筛选加权的特征向量来替换原有的特征向量进行残差融合，同时添加二阶项来减少融合

过程中的信息损失并加速模型收敛。通过在 COCO 和 PAS CAL VOC数据集上的实验表明，该算法有效降低了边界

框的定位误差并提升了检测精度。相比 YOLOv3 算法在 COCO 测试集上的 mAP

@IoU[0.5 ：0.95]

提升了最高 2.5 mAP，在

PAS CAL VO C 2007测试集上达到了最高 81.9 mAP。

关键词：目标检测；YOLOv3算法；Attentio n-YOLO算法；通道注意力机制；空间注意力机制

文献标志码：A 中图分类号：TP391. 41 doi：10.3778/j.issn.1002-8 331.1812-0010

徐诚极，王晓峰，杨亚东 .Attention-YOLO：引入注意力机制的 YOLO检测算法 .计算机工程与应用，201 9，55（6）：13-23.

XU Chengji, WANG Xiaofeng, YANG Yadong. Attention-YOLO：YOLO detection algorithm that introduces attention

mechanism. Computer E ngineering and Applications, 2019, 55（6）：13-23.

At tention-YOLO：YOLO Detection Algori thm That Introduces Attentio n Mechanism

XU Chengj i, WANG Xiaofeng, YANG Yado ng

College of Information Engineering, Shanghai Maritime University, Shanghai 201306, Chin a

Ab stract：YOLOv3 is a real-time objec t detection algorithm, its speed and accuracy r each good trade-off, but the disad-

vantages are that the boundary box pos itioning is in accurat e and it is difficult to distinguish overlapping obj ects. Fo r the

above problems, this paper pr opo ses the Attention-YOLO algori thm based on the item-w ise attention mechanism w hich

embeds channel and spatial atte ntion mechanism in the feature extraction network, uses the filtered weighted feature vec-

tor to replace the original residual fusion, and add s a second-order item to reduce the in format ion loss in the proces s of

fusion and accelerate the con vergence of the model. Based on the experiments on COCO and PASCAL VOC datasets, the

results show that the Attention -YOLO algorithm effectively reduces the boundary box positioni ng loss and i mproves the

detection accuracy. Compa red with YOLOv3, the Attention-YOLO improves at most 2.5 mAP@IoU[0.5∶0.95] on COCO

dataset , and re aches 81.9 mAP on PASCAL VOC 2007 test.

Key words：object detection; YOLOv3 algorithm; Attention-YOLO algorithm; channel attention; spatial attention

基金项目：国家自然科学基金（No.61872231，No.61703 267）；上海海事大学研究生创新基金（No.2017ycx083）。

作者简介：徐诚极（1996—），男，硕士研究生，研究领域为深度学习与目标检测，E-mail：1376135 0550@163.com；王晓峰（1958—），

男，博士生导师，教授，研究领域为人工智能，数据挖掘与知识发现等；杨亚东（1990—），男，博士研究生，研究领域为计

算机视觉，图像处理。

收稿日期：2018-12-03 修回日期：2019-01-07 文章编号：1002-8331（2019）06-0013- 11

Computer Engineering and Applications 计算机工程与应用

计算机工程与应用

www.ceaj.org

Computer Engineering and Applications 计算机工程与应用

2019，55（6）

形，光照条件以及背景的多样性，手工特征的鲁棒性较

差，无法表征所有情况下的物体特征。最后，对所提取

的特征进行分类

[10-11]

，识别出检测框中物体的类别。

近几年来，随着深度卷积神经网络在计算机视觉领

域的深入应用，以 YOLO 算法

[12-14]

以及 SSD

[15]

算法为代

表的实时目标检测模型在工业领域以及实际应用场景

中

[16-17]

发挥了很好的检测效果。但是，由于这两种算法

将目标检测过程视作回归问题来处理，不能很好地将前

景区域与背景区域区分开，容易产生误检和漏检。而以

Faster-RCNN

[18]

为代表的含有 R egion Proposal Networ ks

（RPN）的检测算法能在感兴趣区域的生成阶段就将可

能含有待检测物体的区域大致确定下来，在大大提升准

确率的同时也能为之后的分类阶段节省处理时间。

目前对目标检测算法的改进主要包括：采用能够

提取到更丰富特征的基础神经网络、融合多个尺度的

特征来进行检测或是其他对于检测环节改进的方法。

Fu 等人

[19]

提出在 SSD 检测框架的基础上，采用更深的

ResNe t-101

[20]

网络来进行特征提取，并且采用了反卷积

层，引入额外的大量语义信息，改进了 SSD 算法对于小

物体的检测能力。Shen 等人

[21]

同样在 SSD 的基础上借

鉴了 DenseN et

[22]

的稠密连接，提出了一种能提升检测准

确率的 Stem Block 结构，改善了训练目标检测模型时

往往需要加载预训练权重的情况。Bodla 等人

[23]

针对非

极大值抑制算法可能导致的漏检情况，提出了一种 Soft-

NMS 算法，对于重叠部分超过阈值的得分框，降低其置

信度，而不是直接进行抑制。该算法在不增加训练成本

以及参数量的前提下，获得了平均 1%的 mAP 提升。温

捷文等人

[24]

对 YOLOv2 算法的特征提取网络进行批再

规范化的处理，并且移除 Dropout层，相比较原 YOLOv2

算法取得了更高的检测精度和更快的训练速度。Lin 等

人

[25]

利用了深度卷积神经网络的多尺度特征，提出了一

个自上而下并且具有横向连接的特征金字塔网络结构，

在不同的尺度上分别进行预测，并将多层的特征图进行

融合。以上这些工作从不同角度提升了检测算法的性能。

在最近的研究中，Hu 等人

[26]

将所提出的通道注意

力模块分别应用于 ResNet 及 ResNeXt

[27]

系列网络上，在

ImageNet 2012 数据集

[28]

上的 top-1及 top-5分类错误率

降低了最多 1.80 %和 1.11%，在 COCO 2014 数据集

[29]

上

的 mAP

IoU=0.5

提升了 1.6%。此外，Woo 等人

[30]

发现，同时

对卷积操作间的通道关系及空间关系进行建模加权，可

以更好地筛选出所需要的特征。在 YOLOv3 检测算法

中，所提取的卷积特征并未对卷积核中不同的位置进行

加权处理，即同等对待整个特征图中的每个区域，认为

每个区域对于最终检测的贡献是相同的。然而在实际

的生活场景中，图中待检测物体的周围往往具有复杂且

丰富的语境信息，对目标区域的特征加以权重，可以使

之能更好地定位在待检测的特征之上，也能在不引入过

多参数量的基础上提升网络的泛化性能。

本文在 YOLOv3 算法的基础上，提出基于注意力机

制的 Attention-YOLO 算法。在特征提取网络的残差连

接中加入注意力机制，使得具有注意力效果的梯度能流

入更深的网络中。此外，改进了残差连接中单一直接的

特征融合方式，加入二阶项及微小的偏置项。实验表

明，在不引入过多额外参数量的前提下，Attention-YOLO

算法相比原始的 YOLOv3 算法有一定的性能提升。

本文的主要贡献如下：提出引入注意力机制的

Attention-YOLO 算法，在特征提取网络中加入通道注意

力及空间注意力机制，最终仅增加 1.4%的参数量，在不

影响实时性的前提下改进了其对于关键特征的提取筛

选能力；修改特征提取网络中残差连接直接线性融合两

层特征图的方法，加入二阶项来更好地保留提取到的深

层及浅层特征并提升结构的非线性程度。其中，Attention-

YOLO 算法的纵向性能比较实验在不借助预训练权重

及多尺度训练等技巧的基础上，取得了比原文方法更好

的检测精度。

2 相关工作

2.1 注意力机制

在神经网络中，可以存储的信息量称为网络容量，

网络容量和网络的复杂度成正比

[31]

。人脑在计算资源

有限的情况下，不能对于过载的视觉信息同时处理每一

位置的视觉图像，而是通过视觉的注意力机制（Attention

mechanism）进行处理

[32-33]

。

按照注意力本身的形式分类，注意力机制可以分为

软性注意力和硬性注意力。按照注意力作用的特征的

形式，注意力机制可分为基于位置

[34]

的注意力和基于

项

[35]

的注意力。基于位置的注意力的输入是具有空间

维度的特征图，基于项的注意力的输入是包含明确的项

的序列性数据。在计算机视觉领域中，基于位置的注意

力是与任务较为相关、作用方法较为直接的注意力机

制，其应用较为广泛。基于项的注意力在很多特殊的模

型中也得到了应用

[36]

，由于其可以直接嵌入目前流行的

诸多卷积神经网络结构中，并且能够在不改动原有结构

的前提下进行端对端训练，因此采用基于项的注意力来

改进卷积神经网络是改动成本最低，且收益较好的选择。

当注意力机制用于图像描述

[34]

任务中时，注意力机

制模块所要处理的信息包含明确的项序列

a = {a

,⋯,a

},a

∈ ℝ

其中

代表特征向量的个数，

代表

的是维度空间。因此所采用的注意力机制需要计算出

当前时刻

每个特征向量

的权重

t,i

，公式如下：

= f

att

t - 1

)

（1）

t,i

exp(e

)

∑

k = 1

exp(e

)

（2）

计算机工程与应用

www.ceaj.org

2019，55（6）

其中，

att

(⋅)

代表多层感知机，

代表中间变量，

t - 1

代

表的是上个时刻的隐状态，

代表特征向量的下标。

计算出权重后，模型就可以对输入的序列

进行筛

选，得到筛选后的项序列



，其中：



= ϕ({α

},{a

})

（3）

最终，注意力是硬性的或软性的取决于函数

的

选取。

当



为线性加权函数时，注意力为软性注意力。

而硬性注意力对

个特征向量进行离散选取，令

表

示模型选取作为注意力关注点的位置，

t,i

表示独热编

码向量，如果某个特征向量

被选中，则其对应的

t,i

= 1

。

代表某个小于

的时刻，将

t,i

视作概率，由其

构成的多项式分布得到最终选择的



，如下式所示：

p(s

t,i

= 1|s

j < t

,α) = a

t,i

（4）

󰅾

∑

t,i

（5）

在细粒度图像识别领域中，Fu等人

[37]

提出的RA-CN N

网络按照由粗及细的过程，使用递归网络依照注意力提

取重要区域，将其进行放大并作为下一级的输入图像。

其中应用的注意力机制结合了硬性注意力和软性注意

力，同时也属于基于位置的注意力方法，将产生的硬性

注意力位置用

阶逻辑函数这样的阶梯型函数进行拟

合，从而得到可导的注意力权重，进而构成可端对端训

练的网络模型，在 Stanford Dog s datasets

[38]

上达到了最

高的 87.3%的分类准确率，但由于其注意力模型复杂，

速度上仍然低于回归型检测算法。

类似的，Hu 等人

[26]

提出的挤压与激励网络（SENet）

以及 Woo 等人

[30]

提出的卷积注意力模块（CBAM）分别

在网络的特征通道维度以及特征空间维度上进行了特

征压缩和生成权重并重新加权的操作，这两种方法可以

看作在特征通道维度及特征空间维度上的基于项的注

意力。本文选取了 ResNet50 分类网络及在此基础上加

入了上述两种注意力机制后的分类网络作为对比，为直

观说明注意力机制对分类结果的影响，选用了 Grad-

CAM 方法

[39]

来进行分类结果依据的可视化。通常，卷

积神经网络的最后一个卷积层具有最丰富的空间及语

义信息，其输出维度与分类的类别数一致，Grad-CAM

方法通过求解全局平均后的梯度来得到每个类别所对

应的特征图所占的权重，最后将得到的权重与对应的特

征图进行加权求和，在每个类别上都能得到一个可视化

的热力图。如图 1 所示，红色部分是特征图中对应类别

置信度较高的地方，也是分类网络在特征图中所集中关

注的部分，其中

值为 Softmax 打分。得益于残差结构

和较深的网络层数，ResNet5 0 网络能较好地专注于目标

类别所在的特征图区域，在此基础上，通道及空间注意

力的作用使得分类网络能更好地区分无关特征，抑制影

响分类结果的其他信息。在检测算法中，选用分类特征

更加精确的特征提取网络将有助于之后的回归预测及

分类训练。

2.2 YOLOv3目标检测模型

YOLO 算法将整个检测环节作为一个回归及分类

问题处理，并没有选择 Select Search

[40]

、Edge Box

[41]

或

者是 RPN

[18]

这样的区域生成算法来完成感兴趣区域的

初始标定，而是直接使用原始的输入图像及标注进行训

练，节省了大量计算资源和耗时。

YOLOv2 算法开创性地提出了一种联合训练目标

检测数据集和图像分类数据集的方法，可以使模型预测

没有分类标注过的数据。YOLOv3 算法针对 YOLOv2

算法定位不准确及召回率较低等问题进行了改进，主要

改进点有以下几点：类别预测阶段由原先的单标签分类

改进为多标签分类，改善了其在类别复杂型数据集上的

分类性能；采用了三个尺度上的特征进行预测，相比较

YOLOv2 仅仅使用 13×13 的特征图进行预测，大大地增

加了特征图中保留的信息量；同时也采用了更深且具有

残差连接的网络来进行特征提取。

2.2.1 网络结构

YOLOv3 算法的网络结构主要由 Darknet-53 特征

提取网络以及特征金字塔网络两部分组成。整个特征

提取网络完全由卷积层组成，没有用到池化操作。

如图 2 所示，YO LOv3 中所采用的特征金字塔结构

（FPN）则是直接在原来的单一网络上做修改，在每个分

辨率的特征图上引入后一分辨率缩放两倍的特征图并

做相加（element-wise）操作。

Broccoli

Toaster

Traffic light

P = 0.899 33 P = 0.964 76 P = 0.998 26

P = 0.509 04 P = 0.855 66 P = 0.886 84

P = 0.886 76 P = 0.963 79 P = 0.997 09

原图 ResNet50 ResNetSENet ResNet-CBAM

图 1 不同注意力机制分类网络的类别热力图

预测

图 2 YOLOv3的多尺度预测结构

徐诚极，等：Attention-YOLO：引入注意力机制的 YOLO检测算法

剩余10页未读，继续阅读

评论收藏

内容反馈

weixin_38743602

粉丝: 394
资源: 2万+

论文研究-Attention-YOLO：引入注意力机制的YOLO检测算法.pdf

浅谈Attention机制的理解.pdf

引入视觉注意机制的目标跟踪方法综述

目标检测经典论文-YOLO论文翻译：（YOLO：统一的实时目标检测）

Attention(注意力机制代码)

Attention Mechanism注意力机制

yolov5-attention

深入理解图注意力机制（Graph Attention Network）

flexible-yolov5:具有更多主干（resnet，shufflenet，moblienet）的更具可读性和灵活性的yolov5

yolo最新论文：一种基于注意力机制的YOLO缺陷检测算法-于龙振

基于注意力机制的矿工危险行为检测算法研究-论文

基于注意力机制的新闻事件检测研究与应用.pdf

基于YOLO的小目标检测改进算法研究与应用.pdf

论文研究-结合注意力机制与双向LSTM的中文事件检测方法 .pdf

论文研究-基于注意力机制的电信用户离网预测算法 .pdf

结合自注意力机制的神经网络文本分类算法研究.pdf

论文研究-实时目标检测算法YOLO的批再规范化处理.pdf

论文研究-融合注意力机制的深度协同过滤推荐算法.pdf

论文研究-基于注意力机制的LSTM的语义关系抽取.pdf

论文研究-融合自注意力机制的实体和关系的联合抽取 .pdf

论文研究-基于注意力机制的脑肿瘤分割 .pdf

论文研究-引入学习机制的自适应遗传算法设计与实现.pdf

论文研究-基于用户和产品Attention机制的层次BGRU模型.pdf

论文研究-动态引入第三参考点的微粒群算法研究 .pdf

论文研究-引入偏置的矩阵分解推荐算法研究.pdf

论文研究-引入信息熵的CURE聚类算法.pdf

论文研究-引入反向传播机制的概率神经网络模型.pdf

论文研究-引入剩余能量的LEACH协议改进算法.pdf

Origin绘制相关性热图插件(Correlation Plot)

（免费）Chrome浏览器插件axure-chrome-extension

最新资源