没有合适的资源?快使用搜索试试~ 我知道了~
马丁大神的论文详细翻译版。论文详细翻译了DIMP算法的各个步骤和思想、结论和结果。希望大家在目标跟踪领域多多交流。
资源推荐
资源详情
资源评论
【1 引言】
通用目标跟踪 是 在视频序列各帧中估计任意目标状态的任务。在最一般的设置中,
目标仅由在序列中它的初始状态来定义。当前大多数解决跟踪问题的方法是通过构建一个
能够区分目标和背景外观的目标模型,由于特定于目标的信息仅可在测试时获得,目标模
型无法在离线训练阶段被学习(目标模型),例如对象检测。取而代之的是,目标模型必须
在推理阶段本身通过利用测试时的目标信息来构建。
Figue1:目标对象(红色框)的置信度图是 通过使用 i)Siamese 方法(中间)以及 ii)我们的方法
(右)获得的目标模型 所提供的。以 Siamese 方式进行预测的模型仅使用目标外观,很难将目标与背景
中的干扰对象区分开。相比之下,我们的模型预测架构还集成了背景外观,从而提供了卓越的识别能力。
追求端到端的学习解决方案时,视觉跟踪问题的这种非常规特性 带来了重大挑战。
Siamese 学习模板[2,23]已最成功地解决了上述问题。这些方法首先学习一个嵌入
特征,其中通过简单的互相关来计算两个图像区域之间的相似度。然后通过找到与目标模
板最相似的图像区域来执行跟踪。在这种设置下,目标模型仅仅匹配于从目标区域提取的
模板特征。因此,可以使用多对带有标注的图像轻松地对跟踪器进行端到端训练。
尽管最近取得了成功,但 Siamese 学习框架仍受到严重限制。首先,Siamese 追踪
器在推断目标模型时仅仅利用目标外观。这完全忽略了背景外观信息,这对于将目标与场
景中的相似对象区分开来至关重要(请参见图 1)。其次,学习的相似性度量对于未包含
在离线训练集中的对象不一定是可靠的,从而导致泛化不佳。第三,Siamese 没有提供强
大的模型更新策略。相反,最先进的方法采取的却是简单的模板平均 [46]。与其他最新的
跟踪方法相比,这些限制导致鲁棒性较差[20].
在这项工作中,我们引入了另一种以端到端的方式进行培训的替代跟踪体系结构,该
体系结构直接解决了所有上述限制。在我们的设计中,我们从具有识别能力的在线学习程
序中获得启发,这些程序已成功应用于最新的跟踪器中[6,9,30]。我们的方法基于目标
模型预测网络,它源自一个 识别能力的学习损失,通过应用迭代优化步骤来实现。该体系
结构经过精心设计,可以进行有效的端到端训练,同时最大限度地提高预测模型的 识别能
力。这是通过确保通过两个关键设计选择最少的优化步骤来实现的。首先,我们采用基于
最速下降法的方法来计算每次迭代的最佳步长。其次,我们集成了一个有效的初始化目标
模型的模块。此外,我们通过学习区分(分类)损失本身,将极大的灵活性引入了最终的体
系结构。
我们的整个跟踪架构以及主干特征提取器均通过使用带注释的跟踪序列来进行训练,
以最大程度地减少未知帧的预测误差。我们对 7 个跟踪数据集进行了全面的实验:
VOT2018 [20],LaSOT [10],TrackingNet [27],GOT10k [16],NFS [12],OTB-
100 [43]和 UAV123 [26]。
我们的方法在所有 7 个数据集上都获得最先进的结果,同时可以运行处理的效率达到
40FPS。我们还对提议的体系结构进行了广泛的实验分析,显示了每个组件的影响。
【2 相关的工作】
近年来,随着各种方法的发展,通用对象跟踪取得了惊人的进步。近年来,基于
Siamese 网络[2,23,39]的方法因其端到端的训练能力和高效率而备受关注。该名称源
自 Siamese 网络体系结构的部署,以便离线学习相似性指标。Bertinetto 等人[2]利用全
卷积架构进行相似性预测,从而获得了超过 100 FPS 的高跟踪速度。Wang 等[42]学习了
一种残差注意力机制,以使跟踪模型适应当前目标。Li 等人[23]采用区域提议网络[34]来
获得准确的边界框。
Siamese 方法的主要局限性是它们无法将背景区域信息或先前跟踪的帧中的信息合并
到模型预测中。近来的一些尝试旨在解决这些问题。 郭等人[13]学习了一种特征变换来处
理目标外观变化并抑制背景。Zhu 等[46]通过在在线跟踪过程中从目标模板中减去相应的
图像特征来处理背景干扰物。尽管进行了这些尝试,但 Siamese 跟踪器仍未达到像采用
在线学习的最新跟踪器所能达到的高鲁棒性[20]。
与 Siamese 方法相反,另一系列的跟踪器[6、7、30]在线学习识别分类器,以将目
标对象与背景区分开。这些方法可以有效地利用背景信息,从而在多个跟踪基准上获得令
人印象深刻的鲁棒性[20、43]。但是,此类方法依赖于更复杂的在线学习过程,而这些过
程无法在端到端学习框架中轻松呈现。因此,这些方法通常受限于从深度网络中提取的特
征,这些网络经过预先训练以进行图像分类[9,25] 或 手工制作的方法来代替预训练
[8]。
最近的一些工作旨在将现有的基于识别在线学习的跟踪器构造为神经网络组件,以便
从端到端培训中受益。Valmadre 等人[41]将相关滤波器(CF)[15]的单样本封闭形式解
决方案集成到一个深层网络中。Yao 等[45]在 BACF [18]跟踪器中展开 ADMM 迭代,以
在复杂的多阶段训练过程中学习特征提取器和一些跟踪超参数。但是,BACF 模型学习仅
限于傅立叶域 CF 公式的单样本变体,后者无法利用多个样本,因此需要特定的滤波器的
线性组合以进行模型调整。
仅 使 用 少 量 图 像 来 学 习 以 预 测 目 标 模 型 的 问 题 与 元 学 习
[11,28,29,33,35,36,40]密切相关。少有一些的工作已经在这个追踪方向上进行
这努力。Bertinetto 等人[1]对网络进行元训练,以预测跟踪模型的参数。Choi 等[5]利用
元学习器来预测目标明确的特征空间,以补充通用的目标独立的特征空间 该控件被在
Siamese 跟踪器中用于估计相似性。Park 等人[32]开发了一种使用初始目标独立的模型
的元学习框架,然后使用具有学习步长的梯度下降法对其进行完善调整。但是,恒定步长
仅适用于模型的快速初始调整,并且在应用迭代时不能提供最佳收敛
【3 DiMP 方法】
在这项工作中,我们开发了用于跟踪的判别(识别)模型预测架构。与 Siamese 跟踪器
一样,我们的方法得益于端到端训练。但是,与 Siamese 不同,我们的体系结构可以充
分利用背景信息,并提供自然而强大的手段来用新数据更新目标模型。我们的模型预测网
络来自两个主要原则:(i)识别损失,旨在提高那个被学习目标模型的鲁棒性;(ii)确
保快速收敛的强大优化策略。通过如此精心的设计,我们的架构仅需几次迭代即可预测目
标模型,而不会影响其判别能力。
在我们的框架中,目标模型由 卷积层的权重 和 提供目标分类得分 作为输出来构成的 。
我们的模型预测体系结构通过将一组带边界框标注的图像样本作为输入来计算这些权重。
模型预测器包括一个初始化器网络,该网络初始化器仅使用目标外观即可有效提供模型权
重的初始估计。然后由优化器模块处理这些权重,同时考虑目标和背景外观。通过设计,
我们的优化器模块具有少量可学习的参数,以避免在离线训练期间过拟合到确定的类别和
背景。因此,我们的模型预测器可以泛化到看不见的对象,这对于通用对象的跟踪至关重
要。
我们的最终跟踪架构包括两个分支:一个目标分类分支(请参见图 2),用于将目标
与背景区分开;一个边界框估计分支,用于预测准确的目标框。两个分支都从公共的
backbone 网络输入深层特征。目标分类分支包含一个卷积块,该卷积块在分类操作中进
行特征提取。给定一组训练样本和相应的目标框,模型预测器将生成目标分类器的权重。
然后将这些权重应用于从测试帧中提取的特征,以计算目标置信度分数。对于边界框估计
分支,我们利用[6]中介绍的基于 IOU 最大化的体系结构。整个跟踪网络,包括目标分类,
边界框估计和骨干模块,都在跟踪数据集中进行了离线训练。
图 2.我们的跟踪体系结构中目标分类分支(目标框的回归预测未体现)的概览。给定带注释
的训练集(左上),我们使用骨干网络和附加的卷积块(Cls Feat)提取深度特征图。然
后将特征图输入到由初始化器和循环优化器组成的模型预测器 D 中。模型预测器输出卷积
层的权重,这些权重被用在从测试帧中提取到的特征图的目标分类操作中。
【3.1 判别/识别损失函数】
模型预 测变 量 D 的输入 由特征 提取器网 络 F 生成的深度 特征图
x
j
∈ X
的训练 集
S
train
=
{
(x
j
, c
j
)
}
j=1
n
组成。每个样本与相应的目标中心坐标
c
j
∈ R
2
配对。有了这些数据,我
们的目标是预测目标模型
f =D(S
train
)
。模型 f(如上图中黄色先所画出的部分)被定义为卷
积层的过滤器权重,用于区分特征空间 X 中的目标外观和背景外观。我们从基于最小二乘
剩余10页未读,继续阅读
资源评论
yijinxin_jike
- 粉丝: 0
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功