融合显著性与运动信息的相关滤波跟踪算法.docx资源-CSDN文库

版权申诉

67 浏览量 2023-02-23 20:18:23 上传评论收藏 2.78MB DOCX 举报

资源推荐

资源详情

资源评论

随着越来越多的智能机器的普及应用, 计算机视觉作为机器的“眼睛”, 担负着感知和

理解外部世界的功能, 成为一项迫切的需求. 视觉目标跟踪

[1-2]

的主要任务是在视频图像序

列中建立目标的运动轨迹, 在智能视频监控

[3]

、自动驾驶

[4]

、人机交互

[5]

、机器人导航

[6]

、医

学诊断

[7]

等领域均有广泛的应用. 这些上层算法应用的性能很大程度上受限于目标跟踪算法

的性能, 因此提高目标跟踪算法的鲁棒性、准确率与实时性, 能够为各领域的发展提供必要

的技术支撑与理论促进, 具有重大的意义.

在视觉目标跟踪技术的众多分支中, 针对通用物体的在线目标跟踪技术由于不需要使

用预训练的物体模型, 对跟踪任务执行的场景、被跟踪物体的类别、形状、运动模式均无

特殊的限定与要求, 存在极其广泛的应用需求, 因此成为众多计算机视觉系统与应用的底层

关键技术之一, 近十年来一直是计算机视觉领域中一个非常活跃的研究课题. 与此同时, 由

于存在目标及场景先验知识缺乏, 物体及环境变化不可预测等诸多因素, 与已知物体类别的

跟踪

[8-9]

相比, 对建模方法的适应性有着更高的要求. 要长时间准确定位目标, 算法必须适应

目标及场景的各种变化, 典型的变化包括目标尺度变化、非刚体形变、背景干扰、快速运

动与复杂运动等, 这些都给通用物体的在线跟踪任务带来了极大的挑战. 尽管近年来在理论

和应用上均取得了显著的进展

[10-11]

, 在线目标跟踪的研究仍有很多关键问题亟待解决, 其中

之一是被跟踪物体的表征与建模, 即目标表征问题.

无论是经典的生成式模型

[12-13]

(Generative model), 还是近年来较为主流的判别式模型

[14-15]

(Discriminative model) 以及基于深度学习的方法

[16-18]

都使用了外接目标区域的矩形模板

来表征被跟踪目标. 虽然这些算法在刚性物体跟踪上取得了很好的效果, 但是大部分缺乏能

够十分有效区分目标与背景像素的机制. 由于目标模型里包含了一部分背景区域, 随着噪声

和误差的累积, 模型容易慢慢偏移到背景上面去, 同时也比较难对目标的形状变化实现自适

应调整, 在背景干扰、目标形变明显或者复杂运动的场景下容易逐渐丢失目标.

与此不同的是, 人类视觉系统能够明确地区分目标与背景的区域, 并不以矩形模板的

形式表征和建模物体. 研究表明, 人类的视觉机制具有异常突出的数据筛选能力, 能够快速

有效地识别复杂场景中的显著性区域, 准确定位感兴趣的目标

[19-20]

. 人类能够轻松实现对目

标的稳定跟踪, 视觉注意机制扮演了重要的角色. 因此, 在目标跟踪算法中建模显著性机制,

对其提供的像素级观测信息进行集成利用, 以提高跟踪算法的鲁棒性与准确率, 具有重要的

意义.

人类处理运动物体的另一个特点是具备关于运动的先验知识, 知道属于同一个物体的

像素有同样的运动趋势. 认知与心理学的研究

[21-22]

表明, 几个月大的婴儿就已经有关于自由

物体连续和平滑运动的知识, 能够根据这些知识辅助预测和判断物体的走向. 这些关于物体

显著性和运动的知识, 目前都没有在目标跟踪方法中被很好地建模与集成利用.

上述像素级先验信息没有被有效利用, 一个重要的原因是当前主流的目标跟踪模型使

用了基于矩形模板的目标表征模型, 无法有效地融合这些像素级的图像观测. 因此, 本文提

出使用像素级概率性目标表征模型, 将目标跟踪任务建模为一个像素级目标概率的贝叶斯

推断 (Bayesian inference) 问题, 在每一帧使用前后帧的像素关联来向前传递目标概率, 再

进一步融合当前帧显著性模型和运动观测模型提供的像素级图像证据, 递推地产生目标概

率图. 该模型提供了与当前主流矩形模板目标表征模型互补的信息, 可以用来预测目标位

置, 与使用矩形模板目标表征的算法进行融合决策, 提升目标跟踪算法在背景干扰、目标形

变、复杂运动等场景下的鲁棒性. 同时, 像素级的目标概率图也可产生目标分割结果, 为视

频目标分割、增强现实以及行为分析等应用和研究提供帮助.

1. 相关工作

目前较为主流的视觉跟踪算法使用判别式模型, 在已跟踪图像序列上采集目标与非目

标样本训练分类器, 通过对新图像上采样的候选目标矩形框进行分类判决来完成跟踪任务

[14-15]

, 也被一些研究者称为检测−跟踪 (Tracking-by-detection) 框架. 其中, 基于岭回归

(Ridge regression) 分类器的算法由于可以利用循环矩阵的特性, 将空间域的训练样本转换

到频域进行加速计算, 得到基于相关滤波 (Correlation filter, CF) 的算法实现

[14]

, 具备算法

速度与准确率俱佳的特点, 吸引了大量的研究和改进工作

[23-25]

为了避免基于矩形模板的目标表征模型受到目标形变、背景噪声以及误差累积的影响,

导致算法目标模型偏移的问题, 一些跟踪算法

[26-27]

采用基于子块的模型 (Part-based model)

来进行目标表征, 以减少背景区域对模型的干扰, 对目标形变和遮挡等常见挑战性因素具有

一定的自适应能力. 但是, 相对于单个矩形模板的表征方法, 基于子块的目标表征模型存在

参数较多, 模型较为复杂, 需要灵活处理如何选择和更新子块等问题, 在长时间跟踪 (Long-

term tracking) 过程中仍然无法保持足够的算法鲁棒性, 限制了其进一步的应用.

另一类跟踪算法将目标分割引入到跟踪过程中, 得到像素级的目标模型, 目标表征更

为精确. Fan 等使用了抠图技术 (Image matting) 对目标前背景进行分割, 并把分割结果反

馈到跟踪过程中

[28]

. Godec 等使用 Grabcut 算法进行目标分割, 并在每帧使用分割结果指导

下一帧的检测

[29]

. Bibby 等使用水平集 (Level set) 进行目标的分割, 以处理目标形状变化

[30]

. 这一类算法存在的问题是, 模型极大依赖于图像分割算法的鲁棒性, 在背景干扰严重的

情况下, 单帧的分割误差对后续操作影响较大, 容易循环积累, 导致后面的模型出现偏差.

上述基于分割的目标表征方法对每个像素是否在目标物体上做出了确定性的判决, 像

素级目标概率模型则在此基础上进一步改进, 对像素点是否在目标上进行概率性的估计. 这

样的模型相当于对目标进行了软分割, 在建立了像素级目标模型的同时, 对于分割误差有更

高的容忍度. Oron 等对目标进行了像素级的建模, 并把像素概率推断融入到 Lucas-Kanade

目标跟踪框架之中

[31]

. Possegger 等针对目标和背景分别建立了颜色直方图来作为分类器,

对每个像素给出目标概率推断

[32]

. Son 等使用了梯度提升决策树算法 (Gradient boosting

decision Tree, GBDT) 来作为分类器给出目标与背景的分类

[33]

. Duffner 等则综合使用霍夫

投票 (Hough voting) 与颜色直方图进行像素分类器的建模

[34]

在文献[34-36]中目标跟踪与分割问题被联合建模, 不同来源的像素级图像特征由一个

贝叶斯推断框架进行融合. 虽然这些工作和本文的贝叶斯推断方法有相似之处, 但在传递概

率和像素级似然概率的建模方式等方面, 都和本文提出的方法有很大的区别. 此外, 贝叶斯

推断也被广泛应用到多物体估计

[37]

、识别

[38]

与跟踪

[39]

问题当中. 在这些任务中运动信息通

常被用来关联不同帧之间检测到的目标.

近年来, 视觉显著性检测

[19-20]

作为一项新兴的课题, 吸引了大量的研究, 它通过模拟人

类视觉注意机制对图像信息进行筛选处理, 选取优先处理区域, 提供给其他较上层的计算机

视觉算法进行使用. 显著性检测领域的代表算法包括由 Itti 等提出的基于空间域的计算模

型

[40]

、Hou 等提出的基于频谱域的方法

[41]

等. 此外, 基于测地距离 (Geodesic distance) 和基

于最小障碍距离 (Minimum barrier distance, MBD) 的显著性算法

[42-43]

使用背景先验和距离

度量来衡量像素点的显著性, 在数据集上取得了很好的效果, Zhang 等在此基础上提出的加

速算法

[44]

由于较快的计算速度和出色的检测效果而受到关注. 一些研究者尝试将视觉显著

性计算模型引入跟踪系统中, 通过模拟人类特有的视觉选择性注意机制为采样提供先验知

识, 从而提高跟踪效率

[45]

目标跟踪领域的另一个近期发展趋势是深度学习与卷积神经网络 (Convolutional

neural network, CNN) 技术的应用. 一部分研究者在判别式跟踪模型框架内通过使用对目标

表征能力更强的 CNN 特征, 来获得更好的跟踪效果

[46-48]

, 其中 Choi 等通过对 CNN 特征

进行压缩来保证算法的实时性

[48]

. 另外一部分研究者则通过构造和训练端对端 (End-to-end)

的卷积神经网络来完成跟踪任务, 其中 Bertinetto 等提出的全卷积孪生神经网络 (Fully-

convolutional siamese networks, SiamFC) 是十分具有代表性的工作

[16]

, Valmadre 等提出的

CFNet 算法在此基础上将相关滤波器建模为深度神经网络的一个层

[17]

, 使得算法集成了深

度学习与相关滤波技术的优点. 此外, Hong 等使用卷积神经网络特征通过后向传播 (Back-

projecting) 技术构造目标的显著图

[46]

, Choi 等在跟踪算法中通过训练深度回归网络 (Deep

regression network) 建立注意力机制

[18]

, Gladh 等在基于深度学习方法的跟踪框架内引入了

深度运动特征

[49]

, 这些工作虽然采用了与我们截然不同的建模方式, 但是与本文具有相似的

出发点, 认为注意力机制以及基于运动的图像观测能够提供与现有模型呈现互补性的信息,

从而有效提升目标跟踪算法的精度与鲁棒性.

2. 多目标表征融合跟踪框架

本文使用了基于检测器的目标跟踪框架, 其核心思想是根据已跟踪的目标采集正负样

本训练检测器, 在待跟踪图像上通过一定的预测搜索策略产生大量的候选样本, 使用之前训

练的检测器对这些样本是目标物体的概率进行估计, 选取最佳选项作为跟踪输出结果.

具体的, 在第 tt 帧的时候, 在图像 ItIt 中采集大量候选目标样本形成集合 QtQt, 从中

选择一个作为目标矩形框 ptpt, 以使得目标函数最大化:

pt=argmaxp∈Qtf(T(It,p);θt)pt=arg⁡maxp∈Qtf(T(It,p);θt)

(1)

其中, T(I,p)T(I,p)是一个图像变换, 对图像 II 中的矩形窗口 pp 提取一定的特征描述符,

构成目标的视觉表征, 评估函数 f(T(I,p);θ)f(T(I,p);θ)再对视觉表征数据根据模型参数 θθ 赋

剩余21页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3591
资源: 1万+

融合显著性与运动信息的相关滤波跟踪算法.docx

电信设备-融合颜色和运动信息的视觉显著性滤波方法.zip

孪生网络框架下融合显著性和干扰在线学习的航拍目标跟踪算法.docx

融合显著性信息的水下图像清晰化算法.docx

卷积视角下抗遮挡相关滤波跟踪方法.docx

粒子滤波算法综述.docx

【老生谈算法】基于Matlab的卡尔曼滤波算法仿真.docx

UKF算法滤波性能分析.docx

响应差异约束的相关滤波无人机目标跟踪算法.docx

自适应上下文感知相关滤波类目标跟踪算法.docx

开关电源AC和DC的输入滤波电路原理.docx.docx

网格驱动PHDCPHD滤波多目标跟踪算法.docx

贝叶斯滤波到卡尔曼滤波及其拓展.docx

课程设计-磁盘调度算法.docx

【老生谈算法】平滑滤波Matlab实现.docx

自适应滤波算法综述.docx

oA-ToA目标跟踪的偏差补偿卡尔曼滤波算法.docx

基于高斯混合概率假设密度的运动参数估计组合平滑滤波算法.docx

数字图像处理实验三中值滤波和均值滤波实验报告.docx

学习笔记5：数据预处理与数据挖掘十大经典算法.docx

顾及系统噪声和观测噪声的分级自适应信息滤波算法.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

农村公交与异构无人机协同配送优化

李飞飞自传 我看见的世界 The World I see

4个亲测好用的ChatGPT4渠道

最新资源

李飞飞自传我看见的世界 The World I see