没有合适的资源?快使用搜索试试~ 我知道了~
论文研究-Attention-YOLO:引入注意力机制的YOLO检测算法.pdf
需积分: 42 103 下载量 66 浏览量
2019-09-12
00:00:57
上传
评论 12
收藏 1.39MB PDF 举报
温馨提示
试读
11页
实时目标检测算法YOLOv3的检测速度较快且精度良好,但存在边界框定位不够精确、难以区分重叠物体等不足。提出了Attention-YOLO算法,该算法借鉴了基于项的注意力机制,将通道注意力及空间注意力机制加入特征提取网络之中,使用经过筛选加权的特征向量来替换原有的特征向量进行残差融合,同时添加二阶项来减少融合过程中的信息损失并加速模型收敛。通过在COCO和PASCAL VOC数据集上的实验表明,该算法有效降低了边界框的定位误差并提升了检测精度。相比YOLOv3算法在COCO测试集上的mAP@IoU[0.5:0.95]提升了最高2.5 mAP,在PASCAL VOC 2007测试集上达到了最高81.9 mAP。
资源推荐
资源详情
资源评论
计算机工程与应用
www.ceaj.org
2019,55(6)
1 引言
目标检测
[1]
是计算机视觉领域中最具有挑战性的问
题之一,同时它也被广泛应用于人脸检测
[2]
、自动驾驶
[3-4]
、
行人检测
[5]
等许多领域。目标检测任务通常包括标记出
所给图片中待检测物体的边界框,并且判断边界框中的
物体属于哪一类别。传统的目标检测可以分为三个步
骤:首先,选取感兴趣区域,考虑到待检测的物体可能出
现在图片中的任一位置,同时其大小比例也不是固定
的,通常采用多尺度、多长宽比的滑动窗口技术
[6]
来扫描
整个输入图片。尽管这种技术可以较好地标记出所有
可能出现待检测物体的位置,但是由于扫描时无差别地
对待每一个区域,导致计算量巨大,并且会产生冗余的
标记窗口。其次,从标记的区域中提取特征,常用的有
SIFT
[7]
、HOG
[8]
以及 Haar-li ke
[9]
等手工特征。但是由于外
Attention-YOLO:引入注意力机制的 YOLO检测算法
徐诚极,王晓峰,杨亚东
上海海事大学 信息工程学院,上海 201306
摘 要:实时目标检测算法 YOLOv3的检测速度较快且精度良好,但存在边界框定位不够精确、难以区分重叠物体
等不足。提出了 Attention-YOLO 算法,该算法借鉴了基于项的注意力机制,将通道注意力及空间注意力机制加入特
征提取网络之中,使用经过筛选加权的特征向量来替换原有的特征向量进行残差融合,同时添加二阶项来减少融合
过程中的信息损失并加速模型收敛。通过在 COCO 和 PAS CAL VOC数据集上的实验表明,该算法有效降低了边界
框的定位误差并提升了检测精度。相比 YOLOv3 算法在 COCO 测试集上的 mAP
@IoU[0.5 :0.95]
提升了最高 2.5 mAP,在
PAS CAL VO C 2007测试集上达到了最高 81.9 mAP。
关键词:目标检测;YOLOv3算法;Attentio n-YOLO算法 ;通道注意力机制;空间注意力机制
文献标志码:A 中图分类号:TP391. 41 doi:10.3778/j.issn.1002-8 331.1812-0010
徐诚极,王晓峰,杨亚东 .Attention-YOLO:引入注意力机制的 YOLO检测算法 .计算机工程与应用,201 9,55(6):13-23.
XU Chengji, WANG Xiaofeng, YANG Yadong. Attention-YOLO:YOLO detection algorithm that introduces attention
mechanism. Computer E ngineering and Applications, 2019, 55(6):13-23.
At tention-YOLO:YOLO Detection Algori thm That Introduces Attentio n Mechanism
XU Chengj i, WANG Xiaofeng, YANG Yado ng
College of Information Engineering, Shanghai Maritime University, Shanghai 201306, Chin a
Ab stract:YOLOv3 is a real-time objec t detection algorithm, its speed and accuracy r each good trade-off, but the disad-
vantages are that the boundary box pos itioning is in accurat e and it is difficult to distinguish overlapping obj ects. Fo r the
above problems, this paper pr opo ses the Attention-YOLO algori thm based on the item-w ise attention mechanism w hich
embeds channel and spatial atte ntion mechanism in the feature extraction network, uses the filtered weighted feature vec-
tor to replace the original residual fusion, and add s a second-order item to reduce the in format ion loss in the proces s of
fusion and accelerate the con vergence of the model. Based on the experiments on COCO and PASCAL VOC datasets, the
results show that the Attention -YOLO algorithm effectively reduces the boundary box positioni ng loss and i mproves the
detection accuracy. Compa red with YOLOv3, the Attention-YOLO improves at most 2.5 mAP@IoU[0.5∶0.95] on COCO
dataset , and re aches 81.9 mAP on PASCAL VOC 2007 test.
Key words:object detection; YOLOv3 algorithm; Attention-YOLO algorithm; channel attention; spatial attention
基金项目:国家自然科学基金(No.61872231,No.61703 267);上海海事大学研究生创新基金(No.2017ycx083)。
作者简介:徐诚极(1996—),男,硕士研究生,研究领域为深度学习与目标检测,E-mail:1376135 0550@163.com;王晓峰(1958—),
男,博士生导师,教授,研究领域为人工智能,数据挖掘与知识发现等;杨亚东(1990—),男,博士研究生,研究领域为计
算机视觉,图像处理。
收稿日期:2018-12-03 修回日期:2019-01-07 文章编号:1002-8331(2019)06-0013- 11
Computer Engineering and Applications 计算机工程与应用
13
计算机工程与应用
www.ceaj.org
Computer Engineering and Applications 计算机工程与应用
2019,55(6)
形,光照条件以及背景的多样性,手工特征的鲁棒性较
差,无法表征所有情况下的物体特征。最后,对所提取
的特征进行分类
[10-11]
,识别出检测框中物体的类别。
近几年来,随着深度卷积神经网络在计算机视觉领
域的深入应用,以 YOLO 算法
[12-14]
以及 SSD
[15]
算法为代
表的实时目标检测模型在工业领域以及实际应用场景
中
[16-17]
发挥了很好的检测效果。但是,由于这两种算法
将目标检测过程视作回归问题来处理,不能很好地将前
景区域与背景区域区分开,容易产生误检和漏检。而以
Faster-RCNN
[18]
为代表的含有 R egion Proposal Networ ks
(RPN)的检测算法能在感兴趣区域的生成阶段就将可
能含有待检测物体的区域大致确定下来,在大大提升准
确率的同时也能为之后的分类阶段节省处理时间。
目前对目标检测算法的改进主要包括:采用能够
提取到更丰富特征的基础神经网络、融合多个尺度的
特征来进行检测或是其他对于检测环节改进的方法。
Fu 等人
[19]
提出在 SSD 检测框架的基础上,采用更深的
ResNe t-101
[20]
网络来进行特征提取,并且采用了反卷积
层,引入额外的大量语义信息,改进了 SSD 算法对于小
物体的检测能力。Shen 等人
[21]
同样在 SSD 的基础上借
鉴了 DenseN et
[22]
的稠密连接,提出了一种能提升检测准
确率的 Stem Block 结构,改善了训练目标检测模型时
往往需要加载预训练权重的情况。Bodla 等人
[23]
针对非
极大值抑制算法可能导致的漏检情况,提出了一种 Soft-
NMS 算法,对于重叠部分超过阈值的得分框,降低其置
信度,而不是直接进行抑制。该算法在不增加训练成本
以及参数量的前提下,获得了平均 1%的 mAP 提升。温
捷文等人
[24]
对 YOLOv2 算法的特征提取网络进行批再
规范化的处理,并且移除 Dropout层,相比较原 YOLOv2
算法取得了更高的检测精度和更快的训练速度。Lin 等
人
[25]
利用了深度卷积神经网络的多尺度特征,提出了一
个自上而下并且具有横向连接的特征金字塔网络结构,
在不同的尺度上分别进行预测,并将多层的特征图进行
融合。以上这些工作从不同角度提升了检测算法的性能。
在最近的研究中,Hu 等人
[26]
将所提出的通道注意
力模块分别应用于 ResNet 及 ResNeXt
[27]
系列网络上,在
ImageNet 2012 数据集
[28]
上的 top-1及 top-5分类错误率
降低了最多 1.80 %和 1.11%,在 COCO 2014 数据集
[29]
上
的 mAP
IoU=0.5
提升了 1.6%。此外,Woo 等人
[30]
发现,同时
对卷积操作间的通道关系及空间关系进行建模加权,可
以更好地筛选出所需要的特征。在 YOLOv3 检测算法
中,所提取的卷积特征并未对卷积核中不同的位置进行
加权处理,即同等对待整个特征图中的每个区域,认为
每个区域对于最终检测的贡献是相同的。然而在实际
的生活场景中,图中待检测物体的周围往往具有复杂且
丰富的语境信息,对目标区域的特征加以权重,可以使
之能更好地定位在待检测的特征之上,也能在不引入过
多参数量的基础上提升网络的泛化性能。
本文在 YOLOv3 算法的基础上,提出基于注意力机
制的 Attention-YOLO 算法。在特征提取网络的残差连
接中加入注意力机制,使得具有注意力效果的梯度能流
入更深的网络中。此外,改进了残差连接中单一直接的
特征融合方式,加入二阶项及微小的偏置项。实验表
明,在不引入过多额外参数量的前提下,Attention-YOLO
算法相比原始的 YOLOv3 算法有一定的性能提升。
本 文 的 主 要 贡 献 如 下 :提 出 引 入 注 意 力 机 制 的
Attention-YOLO 算法,在特征提取网络中加入通道注意
力及空间注意力机制,最终仅增加 1.4%的参数量,在不
影响实时性的前提下改进了其对于关键特征的提取筛
选能力;修改特征提取网络中残差连接直接线性融合两
层特征图的方法,加入二阶项来更好地保留提取到的深
层及浅层特征并提升结构的非线性程度。其中,Attention-
YOLO 算法的纵向性能比较实验在不借助预训练权重
及多尺度训练等技巧的基础上,取得了比原文方法更好
的检测精度。
2 相关工作
2.1 注意力机制
在神经网络中,可以存储的信息量称为网络容量,
网络容量和网络的复杂度成正比
[31]
。人脑在计算资源
有限的情况下,不能对于过载的视觉信息同时处理每一
位置的视觉图像,而是通过视觉的注意力机制(Attention
mechanism)进行处理
[32-33]
。
按照注意力本身的形式分类,注意力机制可以分为
软性注意力和硬性注意力。按照注意力作用的特征的
形式,注意力机制可分为基于位置
[34]
的注意力和基于
项
[35]
的注意力。基于位置的注意力的输入是具有空间
维度的特征图,基于项的注意力的输入是包含明确的项
的序列性数据。在计算机视觉领域中,基于位置的注意
力是与任务较为相关、作用方法较为直接的注意力机
制,其应用较为广泛。基于项的注意力在很多特殊的模
型中也得到了应用
[36]
,由于其可以直接嵌入目前流行的
诸多卷积神经网络结构中,并且能够在不改动原有结构
的前提下进行端对端训练,因此采用基于项的注意力来
改进卷积神经网络是改动成本最低,且收益较好的选择。
当注意力机制用于图像描述
[34]
任务中时,注意力机
制 模 块 所 要 处 理 的 信 息 包 含 明 确 的 项 序 列
a = {a
1
,
a
2
,⋯,a
L
},a
i
∈ ℝ
D
,
其中
L
代表特征向量的个数,
D
代表
的是维度空间。因此所采用的注意力机制需要计算出
当前时刻
t
每个特征向量
a
i
的权重
α
t,i
,公式如下:
e
ti
= f
att
(a
i
,h
t - 1
)
(1)
α
t,i
=
exp(e
ti
)
∑
k = 1
L
exp(e
tk
)
(2)
14
计算机工程与应用
www.ceaj.org
2019,55(6)
其中,
f
att
(⋅)
代表多层感知机,
e
ti
代表中间变量,
h
t - 1
代
表的是上个时刻的隐状态,
k
代表特征向量的下标。
计算出权重后,模型就可以对输入的序列
a
进行筛
选,得到筛选后的项序列
z
t
,其中:
z
t
= ϕ({α
i
},{a
i
})
(3)
最终,注意力是硬性的或软性的取决于函数
ϕ
的
选取。
当
z
t
为线性加权函数时,注意力为软性注意力。
而硬性注意力对
L
个特征向量进行离散选取,令
s
t
表
示模型选取作为注意力关注点的位置,
s
t,i
表示独热编
码 向 量 ,如 果 某 个 特 征 向 量
a
i
被 选 中 ,则 其 对 应 的
s
t,i
= 1
。
j
代表某个小于
t
的时刻,将
a
t,i
视作概率,由其
构成的多项式分布得到最终选择的
z
t
,如下式所示:
p(s
t,i
= 1|s
j < t
,α) = a
t,i
(4)
z
t
=
∑
i
s
t,i
α
i
(5)
在细粒度图像识别领域中,Fu等人
[37]
提出的RA-CN N
网络按照由粗及细的过程,使用递归网络依照注意力提
取重要区域,将其进行放大并作为下一级的输入图像。
其中应用的注意力机制结合了硬性注意力和软性注意
力,同时也属于基于位置的注意力方法,将产生的硬性
注意力位置用
k
阶逻辑函数这样的阶梯型函数进行拟
合,从而得到可导的注意力权重,进而构成可端对端训
练的网络模型,在 Stanford Dog s datasets
[38]
上达到了最
高的 87.3%的分类准确率,但由于其注意力模型复杂,
速度上仍然低于回归型检测算法。
类似的,Hu 等人
[26]
提出的挤压与激励网络(SENet)
以及 Woo 等人
[30]
提出的卷积注意力模块(CBAM)分别
在网络的特征通道维度以及特征空间维度上进行了特
征压缩和生成权重并重新加权的操作,这两种方法可以
看作在特征通道维度及特征空间维度上的基于项的注
意力。本文选取了 ResNet50 分类网络及在此基础上加
入了上述两种注意力机制后的分类网络作为对比,为直
观说明注 意力 机 制对 分类 结果 的影 响,选用了 Grad-
CAM 方法
[39]
来进行分类结果依据的可视化。通常,卷
积神经网络的最后一个卷积层具有最丰富的空间及语
义信息,其输出维度与分类的类别数一致,Grad-CAM
方法通过求解全局平均后的梯度来得到每个类别所对
应的特征图所占的权重,最后将得到的权重与对应的特
征图进行加权求和,在每个类别上都能得到一个可视化
的热力图。如图 1 所示,红色部分是特征图中对应类别
置信度较高的地方,也是分类网络在特征图中所集中关
注的部分,其中
P
值为 Softmax 打分。得益于残差结构
和较深的网络层数,ResNet5 0 网络能较好地专注于目标
类别所在的特征图区域,在此基础上,通道及空间注意
力的作用使得分类网络能更好地区分无关特征,抑制影
响分类结果的其他信息。在检测算法中,选用分类特征
更加精确的特征提取网络将有助于之后的回归预测及
分类训练。
2.2 YOLOv3目标检测模型
YOLO 算法将整个检测环节作为一个回归及分类
问题处理,并没有选择 Select Search
[40]
、Edge Box
[41]
或
者是 RPN
[18]
这样的区域生成算法来完成感兴趣区域的
初始标定,而是直接使用原始的输入图像及标注进行训
练,节省了大量计算资源和耗时。
YOLOv2 算法开创性地提出了一种联合训练目标
检测数据集和图像分类数据集的方法,可以使模型预测
没有分类标注过的数据。YOLOv3 算法针对 YOLOv2
算法定位不准确及召回率较低等问题进行了改进,主要
改进点有以下几点:类别预测阶段由原先的单标签分类
改进为多标签分类,改善了其在类别复杂型数据集上的
分类性能;采用了三个尺度上的特征进行预测,相比较
YOLOv2 仅仅使用 13×13 的特征图进行预测,大大地增
加了特征图中保留的信息量;同时也采用了更深且具有
残差连接的网络来进行特征提取。
2.2.1 网络结构
YOLOv3 算法的网络结构主要由 Darknet-53 特征
提取网络以及特征金字塔网络两部分组成。整个特征
提取网络完全由卷积层组成,没有用到池化操作。
如图 2 所示,YO LOv3 中所采用的特征金字塔结构
(FPN)则是直接在原来的单一网络上做修改,在每个分
辨率的特征图上引入后一分辨率缩放两倍的特征图并
做相加(element-wise)操作。
Broccoli
Toaster
Traffic light
P = 0.899 33 P = 0.964 76 P = 0.998 26
P = 0.509 04 P = 0.855 66 P = 0.886 84
P = 0.886 76 P = 0.963 79 P = 0.997 09
原图 ResNet50 ResNetSENet ResNet-CBAM
图 1 不同注意力机制分类网络的类别热力图
预测
预测
预测
图 2 YOLOv3的多尺度预测结构
徐诚极,等:Attention-YOLO:引入注意力机制的 YOLO检测算法
15
剩余10页未读,继续阅读
资源评论
weixin_38743602
- 粉丝: 394
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功