基于中心点检测和重识别的多行人跟踪算法.docx资源-CSDN文库

版权申诉

5星 · 超过95%的资源 67 浏览量 2022-11-29 17:43:10 上传评论收藏 1.77MB DOCX 举报

资源详情

资源评论

多行人跟踪一直是计算机视觉领域的研究热点，在监控安防、自动驾驶、场景解析、

动作识别等方面具有重要的应用价值

[1-4]

。真实场景中光照和尺寸变化，以及行人间频繁遮

挡等问题，给多行人跟踪研究带来很大挑战。

传统的多行人跟踪算法通常采用先检测再跟踪的两步法，如 Faster RCNN 算法

[5]

和

YOLOv3 算法

[6]

。两步法通常利用基于卷积神经网络(convolutional neural network, CNN)

的行人检测器进行定位，首先需要输入视频序列中的所有行人框，然后将框内裁剪图像输

入至下一个行人重识别网络提取特征，通过重识别特征和交并比(intersection over union,

IOU)计算距离代价矩阵，最后利用卡尔曼滤波和匈牙利算法将所有行人框关联成轨迹。文

献[1]提出 SORT(simple online and realtime tracking)算法，使用 Faster RCNN 进行检

测，并利用卡尔曼滤波器对状态进行预测。匈牙利算法基于检测帧位置和 IOU 进行轨迹跟

踪，计算速度快，但未考虑框内的目标特征，因此易发生身份变换。行人重识别可以增加

网络对行人消失和遮挡的鲁棒性，在多目标跟踪(multiple object tracking, MOT)任务中使

用 CNN 在大规模行人数据集上进行训练和提取行人重识别特征，增强了模型对行人身份

的辨别能力。文献[2]在多行人跟踪任务中引入行人重识别模块，提出了 Deep SORT 算

法，使用更可靠的深度关联度量来代替距离关联度量。对于短时预测和匹配，Deep SORT

引入了有效的距离度量；对于长时丢失的轨迹，行人重识别模块保留了行人外观信息。文

献[7]提出的(joint detecting and embedding, JDE)算法将行人重识别模型合并到检测器网

络中，摒弃了两步法的通用范式。多行人跟踪被当作一个多任务学习问题

[8]

，同时输出目

标在图像中的边框位置和检测帧中目标的表征嵌入，可加快多行人跟踪速度。但 JDE 算法

在行人相互遮挡情况下检测器效果较差，行人重识别过于依赖检测器的检测结果。

随着多任务学习的发展，已有许多研究提出了基于 JDE 一体化框架的优良算法，其

中多行人跟踪单步法通过检测器加重识别模块嵌入的框架解决了跟踪准确度和实时性的问

题

[9]

。文献[10]提出了一种基于管道的跟踪 Tube TK 算法，能够实现端到端的训练，将过

去单帧图像先检测后跟踪的框架改为多帧图像连成三维的管道数据，包含了帧内、帧间的

空间和时间信息，能有效应对行人尺度变化，同时对于行人运动也更具鲁棒性。这种基于

管道的模型在遮挡和低可见度条件下表现了良好的跟踪性能，但是 Tube TK 在 MOT15、

MOT16、MOT17 数据集上的跟踪速率分别只有 5.8 Hz、1.0 Hz、3.0 Hz，完全无法达到

视频实时跟踪要求

[10]

。

针对多行人跟踪两步法中的低实时性及行人身份切换频繁的问题，本文在单步法的框

架上融合了运动信息和外观信息，将行人重识别模块进行遮挡优化并嵌入行人检测网络

中，由此提出了一种基于中心点检测和重识别的多行人跟踪算法。该算法分为中心点检测

和行人重识别两个模块，整体框架如图 1 所示，两个模块使用同一个网络共享了部分参

数，以提高跟踪速度。同时针对过去的行人重识别相似性距离进行改进，提取到的行人外

观信息联合运动信息可提高跟踪的精准度。

图 2 中心点检测的三大分支

Figure 2. Three Branches of Center Detection

下载: 全尺寸图片幻灯片

本文将多行人跟踪看作一个多变量估计问题。给定一个视频序列，将 S

定义为第 i 号

目标行人在第 t 帧时刻的状态，包含中心点位置 C

={x

, y

}，框尺寸 z

={H

, W

}，速度矢量

=[μ

，ν

]和加速度矢量 A

=[α

，β

], S

={S

, S

⋯S

}表示在第 t 帧所有目标 N 的状态序

列，S

={S

, S

j+1

⋯S

}表示第 i 号目标在不同帧的状态序列轨迹，S

和 S

表示其出现的初始

帧和终止帧。某些情况下因遮挡或者目标离开视界又重新进入导致目标的身份切换，例如

在经过某个遮挡物后未被行人重识别出为 i 号目标，就可能将其新的轨迹定义为 S

i+1

，但

实际是同一行人，这就是多目标跟踪性能指标中的身份切换(identity definition switch,

IDs)，错误的身份会导致跟踪错误，本文将行人状态估计与外观模型关联融合，优化了行

人身份切换问题，使 IDs 指标降低。

1.1 热图

目标中心点在热图中响应为峰值 1，其他位置响应随着热图与中心点距离的增大呈指

数衰减。假定目标中心点个数 i=N，真实的框 G

=(C

, z

)，经过网络输出在热图上位置为

C~i=⌊Ci/4⌋=(C~ix,C~iy)C~i=⌊Ci/4⌋=(C~xi,C~yi)，距离中心点距离

Δd2(x,y)=(x−C~ix)2+(y−C~iy)2Δd(x,y)2=(x−C~xi)2+(y−C~yi)2，中心点热图响应

=1，其余位置热图响应

M(x,y)=∑i=1Nexp−Δd2(x,y)2σ2cM(x,y)=∑i=1Nexp−Δd(x,y)22σc2。用聚焦损失 focal loss

[11]

的像素级逻辑回归对预测的 heatmap 和真实的 heatmap 损失函数求解，计算如下：

Lheatmap =−1N∑(x,y)⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪(1−M^(x,y))αlog(M^(x,y)),M(x,y)=1(1−M(x,y))β(M^(x,y))αlog(1−M^(x,y)),M(x,y)≠1Lheatmap =−1N∑(x,y){(1−M^(x,y))αlog⁡(M^(x,y)),M(x,y)=1(1−M(x,y))β(M^(x,y))αlog⁡(1−M^(x,y)),M(x,y)≠1

(1)

式中，M^(x,y)M^(x,y)为预测的 heatmap 响应；α 和 β 是 focal loss 已设定的参数。

1.2 中心偏移和行人框尺寸

在行人重识别和检测研究中相互遮挡是最大的难点之一，检测器的图像并不能达到行

人重识别数据集所要求的精确程度，检测行人不对齐会对后续行人重识别问题造成困难。

经过采样得到的特征图会引起量化误差，少量的量化误差对于行人检测来说并不影响检测

性能，但是对于行人重识别模块，精准的中心对齐对提取有辨识力的特征非常重要，需要

通过中心点偏移降低量化误差。中心点偏移分支的作用是估计每个像素相对于热图输出中

剩余13页未读，继续阅读

评论收藏

内容反馈

版权申诉