没有合适的资源?快使用搜索试试~ 我知道了~
结合头部和整体信息的多特征融合行人检测.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 152 浏览量
2023-02-23
20:06:39
上传
评论
收藏 539KB DOCX 举报
温馨提示
试读
12页
结合头部和整体信息的多特征融合行人检测.docx
资源推荐
资源详情
资源评论
1. 引言
行人检测与行人重识别技术、目标跟踪技术等相结合在自动驾驶、视频监控等领域中
有广泛的应用
[1-4]
。然而实际检测中行人容易产生遮挡、重叠等问题,并且行人距离的远近
会导致行人尺度产生较大变化,这些问题严重影响了行人检测的准确率
[5]
。
目前卷积神经网络广泛应用于行人检测,其中以 Faster R-CNN
[6]
为代表的两阶段检测
器和以 RetinaNet
[7]
为代表的单阶段检测器取得了较好的效果。李春伟等人
[8]
采用多个卷积
层的输出进行检测从而降低尺度造成的影响;Lin 等人
[9]
提出特征金字塔的概念并构建了
FPN (Feature Pyramid Network),该方法逐渐成为解决尺度变化问题的主要手段
[10,11]
。针对
行人检测中的遮挡问题,Zhang 等人
[12]
提出聚合损失函数使候选框靠近真实边界框以此降
低类内遮挡造成的影响;Du 等人
[13]
通过在网络中添加额外的行人特征掩模减少背景像素的
干扰;Fei 等人
[14]
通过引入更丰富的上下文信息减少遮挡造成的干扰;Liu 等人
[15]
考虑行人
的标注方式,使用预测目标中心点及尺度的方式有效提升了检测准确性,同时该方法可有
效减少类内遮挡造成的漏检。Liu 等人
[16]
通过添加密集程度检测模块为非极大值抑制提供
更合理的筛选条件,有效提升了密集场景下行人检测的准确性。综上所述,上述方法从多
个角度入手解决目标遮挡与尺度过小造成的检测准确性降低的问题,但却忽视了一个重要
的方面,即行人的头部往往不易产生类内遮挡,即使躯干部分由于部分遮挡而无法被检
测,但此时行人的头部特征依然明显,而该信息对于行人而言尤为重要,如 Xu 等人
[17]
便
利用头部信息提升行人跟踪的准确性。此外,大多数方法仅使用主干网络最后 3 层卷积层
的输出进行特征融合,而小尺度目标往往在卷积层的较浅层拥有较高激活程度。
针对以上问题,本文构建了一种结合头部和整体信息的行人检测模型。受文献[18]的
启发在行人检测的基础上添加行人头部检测分支,并利用 CrowdHuman
[19]
数据集自带的行
人头部标签对模型进行训练;考虑到使用矩形边界框标注行人会引入大量背景像素,因此
本文参照文献[15]采用中心点对行人头部和整体进行标注;两个检测分支采用不同深度卷
积层的输出进行特征融合,从而提供有针对性的特征信息;同时,本文对非极大值抑制算
法进行改进,通过添加行人头部的相关判断条件,使行人头部信息和行人整体信息能较好
的结合。
2. 算法原理设计
图 1 为本文提出的网络模型结构,该模型由特征提取模块及检测模块组成。特征提取
模块除主干网络外还包含 5 层结构的特征金字塔。对于行人头部和整体,使用该特征金字
塔的不同子结构并融合输出的特征;检测模块包含头部检测和整体检测两个分支,以此为
基础本文设计了一种融合策略,通过对非极大值抑制算法进行改进使其能较好地融合两个
检测分支输出的检测结果。
图 1 模型总体结构
下载: 全尺寸图片 幻灯片
2.1 特征提取模块
特征提取模块的主干网络采用 ResNet50
[20]
,随着网络层数加深输出特征图的分辨率逐
层缩小为上一层的 1/2。目前大多数方法仅使用主干网络最后 3 层的输出构建特征金字塔,
这种做法将导致大量小尺度目标信息丢失,对此本文构建了具有 5 层结构的特征金字塔。
同时使用该特征金字塔不同子结构的输出进行特征融合,从而为行人头部和整体提供有针
对性的特征信息。
图 2 为本文设计的特征提取模块结构。原始输入图片的大小为 H×W,下采样率为 l 且
逐层翻倍,主干网络输出的特征图记为 f
2
-f
5
,对这 4 张特征图使用 1×1 的卷积运算得到特
征图 F
1
-F
4
,对 F
4
使用相同的卷积运算得到特征图 F
5
。其中,特征图 F
1
的通道数为 256,
后续特征图的通道数逐层翻倍,但保持特征图 F
4
和 F
5
的通道数同为 2048,最终形成具有
5 层结构的特征金字塔。头部检测分支使用特征图 F
1
-F
3
,对 F
2
和 F
3
进行上采样使其大小
与 F
1
一致,融合这 3 张特征图从而得到用于头部检测的特征图${F^{{\rm{head}}}}$;整体
检测分支使用特征图 F
3
-F
5
,之后采取的操作与上述类似,但在融合之前采用文献[21]提出
的方法对特征图进行归一化,最后得到用于行人整体检测的特征图${F^{{\rm{body}}}}$。
图 2 特征提取模块结构
下载: 全尺寸图片 幻灯片
2.2 行人检测模块
对于由信息主导的深度学习方法而言,引入更丰富的信息能有效提升检测准确性。文
献[18]在行人矩形边界框中划定一部分区域,将其视作行人头部区域并尝试利用这部分信
息,但因无法进行准确标注而只能大概确定头部位置,导致头部信息无法得到有效利用,
但这依然为我们提供了新的思路。CrowdHuman
[19]
是针对密集场景的行人检测数据集,它
不仅包含行人整体边界框,还包含对应的行人头部边界框。为有效利用该数据集中的行人
头部标签信息,本文在行人检测的基础上添加行人头部检测并构建如图 3 所示的检测模
型。
图 3 检测模块结构
下载: 全尺寸图片 幻灯片
对于特征提取模块输出的行人整体特征图${F^{{\rm{body}}}}$,分别使用 3 个 1×1
的卷积计算得到 3 张特征图,对应于行人中心${C^{{\rm{body}}}}$、行人高度
${H^{{\rm{body}}}}$以及偏移量${O^{{\rm{body}}}}$。行人边界框的宽度采用文献[22]
的生成方式,将高度乘以比例因子$\varepsilon = 0.41$后得到;对于行人头部特征图
${F^{{\rm{head}}}}$,采用相同方式分别生成头部中心${C^{{\rm{head}}}}$、高度
${H^{{\rm{head}}}}$以及偏移量${O^{{\rm{head}}}}$,并设置比例因子$\varepsilon =
1$得到头部宽度。对于每一个可能存在目标的位置,网络输出 6 维的数组
$\{ {x_c},{y_c},\hat h, $$ {x_o},{y_o},s\}$,其中$ ({x_c},{y_c}) $为目标中心点位置,$ \hat
h $为预测目标高度,$ ({x_o},{y_o}) $为中心点偏移量,s 为置信度。
2.3 信息融合策略
为充分利用行人头部边界框信息,本文对非极大值抑制算法进行了改进。对于行人边
界框${B^{{\rm{body}}}} = $$ (x_1^b,y_1^b,x_2^b,y_2^b)$,其中$ (x_1^b,y_1^b) $和
$ (x_2^b,y_2^b) $分别为边界框的左上角点和右下角点。参考文献[18]本文将行人边界框的
中上部视为行人头部区域,如图 4 所示。
剩余11页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3651
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功