没有合适的资源?快使用搜索试试~ 我知道了~
融合显著性与运动信息的相关滤波跟踪算法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 67 浏览量
2023-02-23
20:18:23
上传
评论
收藏 2.78MB DOCX 举报
温馨提示
试读
22页
融合显著性与运动信息的相关滤波跟踪算法.docx
资源推荐
资源详情
资源评论
随着越来越多的智能机器的普及应用, 计算机视觉作为机器的“眼睛”, 担负着感知和
理解外部世界的功能, 成为一项迫切的需求. 视觉目标跟踪
[1-2]
的主要任务是在视频图像序
列中建立目标的运动轨迹, 在智能视频监控
[3]
、自动驾驶
[4]
、人机交互
[5]
、机器人导航
[6]
、医
学诊断
[7]
等领域均有广泛的应用. 这些上层算法应用的性能很大程度上受限于目标跟踪算法
的性能, 因此提高目标跟踪算法的鲁棒性、准确率与实时性, 能够为各领域的发展提供必要
的技术支撑与理论促进, 具有重大的意义.
在视觉目标跟踪技术的众多分支中, 针对通用物体的在线目标跟踪技术由于不需要使
用预训练的物体模型, 对跟踪任务执行的场景、被跟踪物体的类别、形状、运动模式均无
特殊的限定与要求, 存在极其广泛的应用需求, 因此成为众多计算机视觉系统与应用的底层
关键技术之一, 近十年来一直是计算机视觉领域中一个非常活跃的研究课题. 与此同时, 由
于存在目标及场景先验知识缺乏, 物体及环境变化不可预测等诸多因素, 与已知物体类别的
跟踪
[8-9]
相比, 对建模方法的适应性有着更高的要求. 要长时间准确定位目标, 算法必须适应
目标及场景的各种变化, 典型的变化包括目标尺度变化、非刚体形变、背景干扰、快速运
动与复杂运动等, 这些都给通用物体的在线跟踪任务带来了极大的挑战. 尽管近年来在理论
和应用上均取得了显著的进展
[10-11]
, 在线目标跟踪的研究仍有很多关键问题亟待解决, 其中
之一是被跟踪物体的表征与建模, 即目标表征问题.
无论是经典的生成式模型
[12-13]
(Generative model), 还是近年来较为主流的判别式模型
[14-15]
(Discriminative model) 以及基于深度学习的方法
[16-18]
都使用了外接目标区域的矩形模板
来表征被跟踪目标. 虽然这些算法在刚性物体跟踪上取得了很好的效果, 但是大部分缺乏能
够十分有效区分目标与背景像素的机制. 由于目标模型里包含了一部分背景区域, 随着噪声
和误差的累积, 模型容易慢慢偏移到背景上面去, 同时也比较难对目标的形状变化实现自适
应调整, 在背景干扰、目标形变明显或者复杂运动的场景下容易逐渐丢失目标.
与此不同的是, 人类视觉系统能够明确地区分目标与背景的区域, 并不以矩形模板的
形式表征和建模物体. 研究表明, 人类的视觉机制具有异常突出的数据筛选能力, 能够快速
有效地识别复杂场景中的显著性区域, 准确定位感兴趣的目标
[19-20]
. 人类能够轻松实现对目
标的稳定跟踪, 视觉注意机制扮演了重要的角色. 因此, 在目标跟踪算法中建模显著性机制,
对其提供的像素级观测信息进行集成利用, 以提高跟踪算法的鲁棒性与准确率, 具有重要的
意义.
人类处理运动物体的另一个特点是具备关于运动的先验知识, 知道属于同一个物体的
像素有同样的运动趋势. 认知与心理学的研究
[21-22]
表明, 几个月大的婴儿就已经有关于自由
物体连续和平滑运动的知识, 能够根据这些知识辅助预测和判断物体的走向. 这些关于物体
显著性和运动的知识, 目前都没有在目标跟踪方法中被很好地建模与集成利用.
上述像素级先验信息没有被有效利用, 一个重要的原因是当前主流的目标跟踪模型使
用了基于矩形模板的目标表征模型, 无法有效地融合这些像素级的图像观测. 因此, 本文提
出使用像素级概率性目标表征模型, 将目标跟踪任务建模为一个像素级目标概率的贝叶斯
推断 (Bayesian inference) 问题, 在每一帧使用前后帧的像素关联来向前传递目标概率, 再
进一步融合当前帧显著性模型和运动观测模型提供的像素级图像证据, 递推地产生目标概
率图. 该模型提供了与当前主流矩形模板目标表征模型互补的信息, 可以用来预测目标位
置, 与使用矩形模板目标表征的算法进行融合决策, 提升目标跟踪算法在背景干扰、目标形
变、复杂运动等场景下的鲁棒性. 同时, 像素级的目标概率图也可产生目标分割结果, 为视
频目标分割、增强现实以及行为分析等应用和研究提供帮助.
1. 相关工作
目前较为主流的视觉跟踪算法使用判别式模型, 在已跟踪图像序列上采集目标与非目
标样本训练分类器, 通过对新图像上采样的候选目标矩形框进行分类判决来完成跟踪任务
[14-15]
, 也被一些研究者称为检测−跟踪 (Tracking-by-detection) 框架. 其中, 基于岭回归
(Ridge regression) 分类器的算法由于可以利用循环矩阵的特性, 将空间域的训练样本转换
到频域进行加速计算, 得到基于相关滤波 (Correlation filter, CF) 的算法实现
[14]
, 具备算法
速度与准确率俱佳的特点, 吸引了大量的研究和改进工作
[23-25]
.
为了避免基于矩形模板的目标表征模型受到目标形变、背景噪声以及误差累积的影响,
导致算法目标模型偏移的问题, 一些跟踪算法
[26-27]
采用基于子块的模型 (Part-based model)
来进行目标表征, 以减少背景区域对模型的干扰, 对目标形变和遮挡等常见挑战性因素具有
一定的自适应能力. 但是, 相对于单个矩形模板的表征方法, 基于子块的目标表征模型存在
参数较多, 模型较为复杂, 需要灵活处理如何选择和更新子块等问题, 在长时间跟踪 (Long-
term tracking) 过程中仍然无法保持足够的算法鲁棒性, 限制了其进一步的应用.
另一类跟踪算法将目标分割引入到跟踪过程中, 得到像素级的目标模型, 目标表征更
为精确. Fan 等使用了抠图技术 (Image matting) 对目标前背景进行分割, 并把分割结果反
馈到跟踪过程中
[28]
. Godec 等使用 Grabcut 算法进行目标分割, 并在每帧使用分割结果指导
下一帧的检测
[29]
. Bibby 等使用水平集 (Level set) 进行目标的分割, 以处理目标形状变化
[30]
. 这一类算法存在的问题是, 模型极大依赖于图像分割算法的鲁棒性, 在背景干扰严重的
情况下, 单帧的分割误差对后续操作影响较大, 容易循环积累, 导致后面的模型出现偏差.
上述基于分割的目标表征方法对每个像素是否在目标物体上做出了确定性的判决, 像
素级目标概率模型则在此基础上进一步改进, 对像素点是否在目标上进行概率性的估计. 这
样的模型相当于对目标进行了软分割, 在建立了像素级目标模型的同时, 对于分割误差有更
高的容忍度. Oron 等对目标进行了像素级的建模, 并把像素概率推断融入到 Lucas-Kanade
目标跟踪框架之中
[31]
. Possegger 等针对目标和背景分别建立了颜色直方图来作为分类器,
对每个像素给出目标概率推断
[32]
. Son 等使用了梯度提升决策树算法 (Gradient boosting
decision Tree, GBDT) 来作为分类器给出目标与背景的分类
[33]
. Duffner 等则综合使用霍夫
投票 (Hough voting) 与颜色直方图进行像素分类器的建模
[34]
.
在文献[34-36]中目标跟踪与分割问题被联合建模, 不同来源的像素级图像特征由一个
贝叶斯推断框架进行融合. 虽然这些工作和本文的贝叶斯推断方法有相似之处, 但在传递概
率和像素级似然概率的建模方式等方面, 都和本文提出的方法有很大的区别. 此外, 贝叶斯
推断也被广泛应用到多物体估计
[37]
、识别
[38]
与跟踪
[39]
问题当中. 在这些任务中运动信息通
常被用来关联不同帧之间检测到的目标.
近年来, 视觉显著性检测
[19-20]
作为一项新兴的课题, 吸引了大量的研究, 它通过模拟人
类视觉注意机制对图像信息进行筛选处理, 选取优先处理区域, 提供给其他较上层的计算机
视觉算法进行使用. 显著性检测领域的代表算法包括由 Itti 等提出的基于空间域的计算模
型
[40]
、Hou 等提出的基于频谱域的方法
[41]
等. 此外, 基于测地距离 (Geodesic distance) 和基
于最小障碍距离 (Minimum barrier distance, MBD) 的显著性算法
[42-43]
使用背景先验和距离
度量来衡量像素点的显著性, 在数据集上取得了很好的效果, Zhang 等在此基础上提出的加
速算法
[44]
由于较快的计算速度和出色的检测效果而受到关注. 一些研究者尝试将视觉显著
性计算模型引入跟踪系统中, 通过模拟人类特有的视觉选择性注意机制为采样提供先验知
识, 从而提高跟踪效率
[45]
.
目标跟踪领域的另一个近期发展趋势是深度学习与卷积神经网络 (Convolutional
neural network, CNN) 技术的应用. 一部分研究者在判别式跟踪模型框架内通过使用对目标
表征能力更强的 CNN 特征, 来获得更好的跟踪效果
[46-48]
, 其中 Choi 等通过对 CNN 特征
进行压缩来保证算法的实时性
[48]
. 另外一部分研究者则通过构造和训练端对端 (End-to-end)
的卷积神经网络来完成跟踪任务, 其中 Bertinetto 等提出的全卷积孪生神经网络 (Fully-
convolutional siamese networks, SiamFC) 是十分具有代表性的工作
[16]
, Valmadre 等提出的
CFNet 算法在此基础上将相关滤波器建模为深度神经网络的一个层
[17]
, 使得算法集成了深
度学习与相关滤波技术的优点. 此外, Hong 等使用卷积神经网络特征通过后向传播 (Back-
projecting) 技术构造目标的显著图
[46]
, Choi 等在跟踪算法中通过训练深度回归网络 (Deep
regression network) 建立注意力机制
[18]
, Gladh 等在基于深度学习方法的跟踪框架内引入了
深度运动特征
[49]
, 这些工作虽然采用了与我们截然不同的建模方式, 但是与本文具有相似的
出发点, 认为注意力机制以及基于运动的图像观测能够提供与现有模型呈现互补性的信息,
从而有效提升目标跟踪算法的精度与鲁棒性.
2. 多目标表征融合跟踪框架
本文使用了基于检测器的目标跟踪框架, 其核心思想是根据已跟踪的目标采集正负样
本训练检测器, 在待跟踪图像上通过一定的预测搜索策略产生大量的候选样本, 使用之前训
练的检测器对这些样本是目标物体的概率进行估计, 选取最佳选项作为跟踪输出结果.
具体的, 在第 tt 帧的时候, 在图像 ItIt 中采集大量候选目标样本形成集合 QtQt, 从中
选择一个作为目标矩形框 ptpt, 以使得目标函数最大化:
pt=argmaxp∈Qtf(T(It,p);θt)pt=argmaxp∈Qtf(T(It,p);θt)
(1)
其中, T(I,p)T(I,p)是一个图像变换, 对图像 II 中的矩形窗口 pp 提取一定的特征描述符,
构成目标的视觉表征, 评估函数 f(T(I,p);θ)f(T(I,p);θ)再对视觉表征数据根据模型参数 θθ 赋
值一个分数. 第 tt 帧的模型参数 θtθt 根据之前帧的图像观测与目标位置的集合
{(Ii,pi)}t−1i=1{(Ii,pi)}i=1t−1 来进行选择.
在每一帧, 目标跟踪问题的核心转化为评估函数 f(I,p)f(I,p)的构造与求解. 为了融合互
补的跟踪模型, 充分利用不同类型图像特征和目标表征方式的优势, 把评估函数 f(I,p)f(I,p)
设置为两个分数的线性组合, 两个分数 fpxl(I,p)fpxl(I,p)和 ftmpl(I,p)ftmpl(I,p)分别基于像素
级目标表征模型和矩形框表征模型来进行计算, 加权系数分别为 γγ 和 1−γ1−γ:
f(I,p)=γfpxl(I,p)+(1−γ)ftmpl(I,p)f(I,p)=γfpxl(I,p)+(1−γ)ftmpl(I,p)
(2)
图 1 给出了多目标表征模型融合跟踪框架的示意图. 基于矩形框目标表征的相关滤波
器模型、基于像素级概率性目标表征的运动模型和显著性模型均通过上一帧 (训练帧
It−1)It−1) 提供的目标邻域图像数据进行模型训练, 在当前帧 (测试帧 It)It) 对搜索区域中的
候选目标框位置进行评估分数的求解. 其中, 相关滤波器模型与当前帧数据直接进行求解可
得到评估分数 ftmpl(It,p);ftmpl(It,p); 运动模型和显著性模型结合当前帧图像数据求解得到像
素级目标似然概率图, 再进一步通过本文提出的转化方法得到 fpxl(It,p).fpxl(It,p). 两种目标
表征模型的评估分数线性融合之后, 应用式(1)定位最优的目标位置 pt.pt.
图 1 总体跟踪流程图
Fig. 1 Overall tracking procedure
下载: 全尺寸图片 幻灯片
2.1 基于像素级目标表征的评估分数
剩余21页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3591
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功