基于残差密集连接与注意力融合的人群计数算法.docx_密集连接和注意力资源-CSDN文库

版权申诉

96 浏览量 2022-07-13 16:20:03 上传评论收藏 524KB DOCX 举报

资源推荐

资源详情

资源评论

人群计数任务的目的是计算视频监控和照片内人数。在交通管理、防灾和

公共管理中,对单幅图像中的人数进行统计具有重要的实际意义。健壮的人群

计数系统(Robust Crowd Counting System)被应用在许多公共应用中,例如视

频调查、安全报警、事件计划等。因此,估算人群密度分布并分析人群行为对

于改善公共管理、保障安全至关重要。目前,人群计数任务面临以下挑战:遮挡、

密度分布不均、透视失真以及人与背景元素之间高度相似等。

部分早期人群计数方法采用检测方式,例如文献[1~2]将人体的全部或部分

作为计数条件进行目标统计。这种检测方法在简单的场景中表现良好,但在拥

挤的场景中效果较差。在此基础上,研究人员用回归函数计算图像中的人数。

该方法将人群作为一个整体,学习从图像特征到人数的映射,例如文献[3~4]中的

像素特征法和文献[5]中的纹理特征分析法。前者的效果主要取决于提取的前景

特征的质量,若前景特征提取不佳,则统计效果较差。因此,这种方法在密集场景

中的精度不高。基于纹理特征的人数统计方法可以有效地缓解密集场景中计数

效果不佳的问题,但不适合稀疏场景。总之,传统的计数方法应用效果不理想。

近年来,卷积神经网络在计算机视觉分类和图像识别领域取得了成功。因

此,基于卷积神经网络的方法被广泛应用于解决单个图像的人群计数问题。这

些方法分为两类:多列结构和单列结构。多列结构

[6⇓ ⇓ -9]

通常使用具有不同感受域

的滤波器形成一个并列模型来学习不同尺度的头部,例如在文献[6]和文献[7]中,

为每一列设计了不同感受域的滤波器。在人群密度图中,大的感受域滤波器用

于近距离头部建模,小的感受域滤波器用于远距离头部建模。最后,将每一列特

征图合并生成密度图。文献[9]在文献[7]的基础上设计了密度分类网络结构,将

密度分类器引入网络前端,得到每个输入图像块的类别标签,然后传输到网络后

端生成人群密度图。在此基础上,一些研究者设计了单列结构

[10⇓ ⇓ -13]

,以避免多列

网络带来的计算量大、模型训练困难等问题。这种结构通常使用深度网络系统

来学习图像的深层特征,例如文献[11]提出了一种基于跨层特征组合的人群估

计算法,利用像素级语义信息集成局部特征,有效学习多尺度头部。文献[12]设

计了一种单列扩张卷积结构,在处理多尺度问题时引入了扩张卷积。该方法在

不改变卷积核大小的情况下,实现了与大尺寸卷积核相同的感受域,有效减少了

参数数量,提高了计数精度。虽然多列或深度网络结构在处理尺度变化时取得

了良好的效果,但在捕获尺度多样性时受限于固定的列数,无法有效地利用低层

特征。此外,该方法也没有考虑背景噪声对最终人数统计的影响。

因此,针对上述问题,本文提出了一种基于残差密集连接与注意力融合的人

群计数算法(Crowd Counting Algorithm Based on Residual Dense Connection

and Attention Fusion,RDCAF)。其创新点为:(1)设计了一种残差密集连接结构。

利用残差网络和密集网络相结合的方式对不同深度的特征图进行融合,增强了

不同深度特征之间的信息流动和深层网络的小尺度细节信息;(2)加入了一种注

意力机制结构。经验证,该结构能够自动地将更多的注意力分配给图像中人群

所在的区域,提高了最终密度图的质量;(3)提出了 RDCAF 算法。该算法前端采

用改进 VGG16 网络提取图像底层特征信息,后端主分支采用残差密集连接结

构学习多尺度特征,侧分支采用注意力机制结构重构多尺度特征,最后使用 1×1

卷积和最近邻插值生成人群密度图,根据密度图回归求和得到总人数。本文在 3

个主流公开的数据集上对该算法进行了验证,结果表明了该算法的有效性,并证

明其优于原有算法。

1 RDCAF 算法

由于拍摄视角的差异,行人信息以不同的形式分布在相同或不同分辨率的

图像中。靠近像机的人更清晰,头部有更多的特征信息。距离较远的人结构不

完整,头部较小,占据的特征信息较少。为了解决这一问题,文献[7]和文献[12]分

别从多列结构和空洞卷积方式获取了不同尺度的头部特征。虽然采用上述方法

可取得一定的效果,但在获取多尺度头部上下文信息时,没有充分利用浅层图像

特征,忽略了浅层网络中丰富的细节信息,也没有考虑背景噪声因素对人数的影

响。基于此,本文提出一种基于残差密集连接与注意力融合的人群计数算法。

该算法以任意大小的图像为输入,利用改进的 VGG16 网络提取原始图像的浅

层纹理信息。然后,通过残差密集连接结构捕获不同尺度的人头信息,并结合注

意力机制结构,重建行人特征图。随后,采用 1×1 卷积和最近邻插值生成与原始

图像大小相同的密度图。最终对密度图进行像素积分求和得到总人数。本文所

设计的算法结构如图 1 所示,主要包括前端的基本特征提取结构、后端主分支

的残差密集连接结构以及后端侧分支的注意力机制结构。

图 1

剩余13页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3659
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip