结合语义和多层特征融合的行人检测.docx资源-CSDN文库

版权申诉

198 浏览量 2023-02-23 16:49:56 上传评论收藏 909KB DOCX 举报

资源推荐

资源详情

资源评论

行人检测是目标检测领域研究最广泛的任务之一, 也一直是计算机视觉任务中的热点

和难点. 行人检测任务是给出图像或视频中所有行人的位置和大小, 一般用矩形框标注. 行

人检测技术可以与目标跟踪

[1]

、行人重识别

[2]

等技术结合, 应用于汽车无人驾驶系统

[3]

、智

能视频监控

[4]

、人体行为分析

[5]

等领域. 在实际场景中, 由于行人与物体、行人间互相遮挡

以及交通标志、橱窗中的模特等相似信息的干扰, 行人检测任务仍然存在很大的挑战

[6]

行人检测是目标检测中的一种特例, 现阶段的很多行人检测算法都以目标检测框架为

基础. 快速区域卷积神经网络

[7]

(Fast region convolutional neural network, Fast R-CNN)和更快

速区域卷积神经网络

[8]

(Faster region convolutional neural network, Faster R-CNN)是目标检测

[9-11]

和行人检测

[12-14]

中被广泛采用的基础框架, 目前在 Caltech

[15]

行人检测数据集上效果较好

的算法大多是基于这两个框架. 如多尺度卷积神经网络

[10]

(Multi-scale convolutional neural

network, MS-CNN)和尺度感知的快速卷积神经网络

[12]

(Scale-aware fast region convolutional

neural network, SA-FastRCNN)分别基于 Faster R-CNN 和 Fast R-CNN 框架强调了尺度问题,

针对不同尺寸的行人特征设计了不同尺度的子网络.

Zhang 等

[13]

证明了 Faster R-CNN 的候选区域网络(Region proposal network, RPN)对提

取行人候选区域的有效性. 但同时也指出基于区域的卷积神经网络(Region-based

convolutional neural network, R-CNN)在分类阶段, 由于高层卷积特征图分辨率降低, 小尺寸

的行人无法得到有效的描述, 会降低检测的总体性能. 因此提出一种结合候选区域网络与决

策森林(Region proposal network + boosted forests, RPN + BF)的算法. 该算法用 RPN 提取候

选区域, 然后用决策森林对候选区域进行分类, 有效缓解了上述问题. 同样, 针对 Faster R-

CNN 中小尺寸行人检测效果不佳的问题, Zhang 等

[14]

提出自适应更快速区域卷积神经网络

(AdaptFasterRCNN), 通过量化 RPN 尺度、增大上采样因子、微调特征步幅、处理被忽略区

域和调整损失函数的方式, 进一步提升了检测效果. Yun 等

[16]

提出一种基于显著性和边界框

对齐的部分卷积神经网络(Part-level convolutional neural network, PL-CNN), 其用 RPN 提取

候选区域, 对特征图中前景和背景设置不同的权重来消除背景干扰引起的误检, 有效解决了

行人检测中遮挡和复杂背景干扰等问题.

目标检测算法的设计是为了更好地定位不同的对象, 检测过程中只用矩形框标注目标

的位置, 通常不提供目标的边界信息. 语义分割能逐像素地定位目标的边界, 将检测和分割

联合, 使用基于区域的分割方法提取特征, 自上而下地聚类计算候选区域, 能有效改进目标

检测的性能

[17]

. Hariharan 等

[18]

首次提出将分割与检测同时用于行人检测, 与文献[17]一样采

用自上而下的分割方法, 不同的是使用多尺度组合分组

[19]

(Multi-scale combinatorial

grouping, MCG)作为分割的候选区域. Wang 等

[20]

提出一种基于卷积神经网络的结合部件与

上下文信息(Part and context information with convolutional neural network, PCN)的算法, 部件

分支利用行人的语义信息来精准分类, 对被严重遮挡的行人具有良好的检测效果. Du 等

[21]

提出深层神经网络融合(Fused deep neural network, F-DNN)的架构, 主要由行人候选区域生

成器、分类网络和像素级别语义分割网络组成. 该算法在语义分割网络中使用掩膜增强行

人特征, 降低行人检测的漏检率(Miss rate, MR), 缺点是架构结构复杂, 提高了精度, 但牺牲

了速度.

上述行人检测方法虽然添加了语义分割以解决遮挡及背景干扰等问题, 但把语义分割

作为一个独立的任务来设计额外的分割网络, 计算复杂. 并且在检测过程中没有针对漏检和

误检问题设计独立模块. 因此, 本文提出一种新的利用语义分割来增强检测效果的行人检测

框架, 将语义分割掩膜融合到共享层, 增强行人特征, 解决行人的漏检和误检问题. 由于不

增加单独的语义分割网络, 因此基本不增加模型的计算复杂度. 在 RPN 的回归分支中用

VGG-16

[22]

构建一个轻量的二次检测模块, 解决前一模块初步检测的误检问题, 并且对前一

次检测的结果进行二次回归.

本文的主要创新点包括:

1)提出一种新的结合语义和多层特征融合(Combining semantics with multi-level feature

fusion, CSMFF)的行人检测算法. 增加了行人特征增强模块(Pedestrian feature enhancement

module, PFEM)和行人二次检测模块(Pedestrian secondary detection module, PSDM), 将语义

分割掩膜融合到共享层, 有效抑制背景信息的干扰和解决不同程度的遮挡问题, 并在此基础

上通过二次检测和回归减少误检, 提高定位精度.

2)在多层特征融合的基础上结合语义分割, 将骨干网络的浅层特征像素信息与深层特

征语义信息进行融合, 有效提高了小尺寸行人的检测性能.

3)行人特征增强模块可以很方便地嵌入到已有检测框架, 基本不增加运算复杂度.

1. 本文算法

提出的 CSMFF 行人检测算法除骨干网络外由两个关键部分组成: 行人特征增强模块

和行人二次检测模块.

行人特征增强模块在 Faster R-CNN 的 RPN 之前添加语义分割分支, 得到以目标框为

边界的分割掩膜. 即对骨干网络采用多层特征融合, 在此基础上用 1 × 1 卷积实现分割. 分

割时逐像素遍历图像中每个像素点, 并对每个像素点单独预测和分类, 形成语义分割掩膜.

分割掩膜通过编码得到语义信息, 映射到骨干网络的深层特征作为 RPN 的输入.

行人二次检测模块添加在 RPN 的回归分支上, 同样对多层特征融合后添加语义分割分

支, 用来解决 PFEM 初步检测的误检问题, 并对初次检测结果进行二次回归. CSMFF 框架

的流程如图 1 所示.

剩余14页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3550
资源: 1万+

结合语义和多层特征融合的行人检测.docx

基于多特征融合的行人检测方法.docx

基于深度学习的行人检测.docx

多尺度语义信息融合的目标检测.docx

结合头部和整体信息的多特征融合行人检测.docx

基于多特征融合的行人检测方法研究

基于特征融合的多尺度行人检测方法.pdf

多特征融合的行人检测算法

一种多层特征融合的人脸检测方法.pdf

多层卷积特征融合的行人检测

基于模糊神经网络的机器人感知系统多源信息融合的研究.docx

数字图像中的Hough变换应用--直线检测.docx

毕业设计-在Ycbcr空间中的基于肤色的人脸检测.docx

基于优化PSO-BP的多特征融合图像识别算法研究.docx

基于深度学习的厨师帽和口罩佩戴的检测方法.docx

基于SRv6的云网融合承载方案.docx

利用文档级信息结合语义空间加强事件检测.docx

通信特定辐射源识别的多特征融合分类方法.docx

基于注意力机制的多特征融合人脸活体检测.docx

超融合云计算方案 .docx

华为FusionCube超融合产品概要.docx

工件高度检测.docx

两化融合基本情况.docx

基于形态非抽样小波的实时图像融合方法.docx

图像融合实验报告.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

最新资源