没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
深度学习在目标跟踪中的应用
摘要: 人眼可以比较轻松的在一段时间内跟住某个特定目标。但是对机器而言,
这一任务并不简单,尤其是跟踪过程中会出现目标发生剧烈形变、被其他目标
遮挡或出现相似物体干扰等等各种复杂的情况。过去几十年以来,目标跟踪的
...
开始本文之前,我们首先看上方给出的 3 张图片,它们分别是同一个视频的第
1,40,80 帧。在第 1 帧给出一个跑步者的边框(bounding-box)之后,后续的第
40 帧,80 帧,bounding-box 依然准确圈出了同一个跑步者。以上展示的其实就
是目标跟踪(visual object tracking)的过程。目标跟踪(特指单目标跟踪)是指:给
出目标在跟踪视频第一帧中的初始状态(如位置,尺寸),自动估计目标物体
在后续帧中的状态。
人眼可以比较轻松的在一段时间内跟住某个特定目标。但是对机器而言,这一
任务并不简单,尤其是跟踪过程中会出现目标发生剧烈形变、被其他目标遮挡
或出现相似物体干扰等等各种复杂的情况。过去几十年以来,目标跟踪的研究
取得了长足的发展,尤其是各种机器学习算法被引入以来,目标跟踪算法呈现
百花齐放的态势。2013 年以来,深度学习方法开始在目标跟踪领域展露头脚,
并逐渐在性能上超越传统方法,取得巨大的突破。本文首先简要介绍主流的传
统目标跟踪方法,之后对基于深度学习的目标跟踪算法进行介绍,最后对深度
学习在目标跟踪领域的应用进行总结和展望。
经典目标跟踪方法
目 前 跟 踪 算 法可 以 被 分 为 产 生 式 (generative model) 和 判 别 式 (discriminative
model)两大类别。
产生式方法运用生成模型描述目标的表观特征,之后通过搜索候选目标来最小
化重构误差。比较有代表性的算法有稀疏编码(sparse coding),在线密度估计
(online density estimation)和主成分分析(PCA)等。产生式方法着眼于对目标本身
的刻画,忽略背景信息,在目标自身变化剧烈或者被遮挡时容易产生漂移。
与之相对的,判别式方法通过训练分类器来区分目标和背景。这种方法也常被
称为 tracking-by-detection。近年来,各种机器学习算法被应用在判别式方法
上,其中比较有代表性的有多示例学习方法(multiple instance learning), boosting
和结构 SVM(structured SVM)等。判别式方法因为显著区分背景和前景的信息,
表现更为鲁棒,逐渐在目标跟踪领域占据主流地位。值得一提的是,目前大部
分深度学习目标跟踪方法也归属于判别式框架。
近年来,基于相关滤波(correlation filter)的跟踪方法因为速度快,效果好吸引了众
多研究者的目光。相关滤波器通过将输入特征回归为目标高斯分布来训练
filters。并在后续跟踪中寻找预测分布中的响应峰值来定位目标的位置。相关滤
波器在运算中巧妙应用快速傅立叶变换获得了大幅度速度提升。目前基于相关
滤波的拓展方法也有很多,包括核化相关滤波器 (kernelized correlation filter,
KCF), 加尺度估计的相关滤波器(DSST)等。
基于深度学习的目标跟踪方法
不同于检测、识别等视觉领域深度学习一统天下的趋势,深度学习在目标跟踪
领域的应用并非一帆风顺。其主要问题在于训练数据的缺失:深度模型的魔力
之一来自于对大量标注训练数据的有效学习,而目标跟踪仅仅提供第一帧的
bounding-box 作为训练数据。这种情况下,在跟踪开始针对当前目标从头训练
一个深度模型困难重重。目前基于深度学习的目标跟踪算法采用了几种思路来
解决这个问题,下面将依据思路的不同展开介绍,并在最后介绍目前跟踪领域
出现的运用递归神经网络(recurrent neural network)解决目标跟踪问题的新思路。
利用辅助图片数据预训练深度模型,在线跟踪时微调
在目标跟踪的训练数据非常有限的情况下,使用辅助的非跟踪训练数据进行预
训练,获取对物体特征的通用表示(general representation ),在实际跟踪时,通
过利用当前跟踪目标的有限样本信息对预训练模型微调(fine-tune), 使模型对当
前跟踪目标有更强的分类性能,这种迁移学习的思路极大的减少了对跟踪目标
训练样本的需求,也提高了跟踪算法的性能。
这个方面代表性的作品有 DLT 和 SO-DLT,都出自香港科技大学王乃岩博士。
DLT(NIPS2013)
Learning a Deep Compact Image Representation for Visual Tracking
DLT 是第一个把深度模型运用在单目标跟踪任务上的跟踪算法。它的主体思路
如上图所示:
(1) 先 使 用 栈 式 降 噪 自 编 码 器 (stacked denoising autoencoder , SDAE) 在 Tiny
Images dataset 这样的大规模自然图像数据集上进行无监督的离线预训练来获得
通用的物体表征能力。预训练的网络结构如上图(b)所示,一共堆叠了 4 个降噪
自编码器, 降噪自编码器对输入加入噪声,通过重构出无噪声的原图来获得更鲁
棒的特征表达能力。SDAE1024-2560-1024-512-256 这样的瓶颈式结构设计也使
获得的特征更加 compact。
(2) 之后的在线跟踪部分结构如上图(c)所示,取离线 SDAE 的 encoding 部分叠加
sigmoid 分类层组成了分类网络。此时的网络并没有获取对当前被跟踪物体的特
定表达能力。此时利用第一帧获取正负样本,对分类网络进行 fine-tune 获得对
当前跟踪目标和背景更有针对性的分类网络。在跟踪过程中,对当前帧采用粒
子 滤 波 (particle filter) 的 方 式 提 取 一 批 候 选 的 patch( 相 当 于 detection 中 的
proposal),这些 patch 输入分类网络中,置信度最高的成为最终的预测目标。
(3) 在目标跟踪非常重要的模型更新策略上,该论文采取限定阈值的方式,即当
所有粒子中最高的 confidence 低于阈值时,认为目标已经发生了比较大的表观
变化,当前的分类网络已经无法适应,需要进行更新。
小结:DLT 作为第一个将深度网络运用于单目标跟踪的跟踪算法,首先提出了
“离线预训练+在线微调”的思路,很大程度的解决了跟踪中训练样本不足的问
题,在 CVPR2013 提出的 OTB50 数据集上的 29 个跟踪器中排名第 5。
但是 DLT 本身也存在一些不足:
(1)离线预训练采用的数据集 Tiny Images dataset 只包含 32*32 大小的图片,分辨
率明显低于主要的跟踪序列,因此 SDAE 很难学到足够强的特征表示。
(2)离线阶段的训练目标为图片重构,这与在线跟踪需要区分目标和背景的目标
相差甚大。
(3) SDAE 全连接的网络结构使其对目标的特征刻画能力不够优秀,虽然使用了
4 层的深度模型,但效果仍低于一些使用人工特征的传统跟踪方法如 Struck
等。
SO-DLT(arXiv2015)
Transferring Rich Feature Hierarchies for Robust Visual Tracking
SO-DLT 延续了 DLT 利用非跟踪数据预训练加在线微调的策略,来解决跟踪过
程中训练数据不足的问题,同时也对 DLT 存在的问题做了很大的改进。
(1)使用 CNN 作为获取特征和分类的网络模型。如上图所示,SO-DLT 使用了的
类似 AlexNet 的网络结构,但是有几大特点:一、针对跟踪候选区域的大小将
输入缩小为 100*100,而不是一般分类或检测任务中的 224*224。 二、网络的
输出为 50*50 大小,值在 0-1 之间的概率图(probability map),每个输出像素对
应原图 2*2 的区域,输出值越高则该点在目标 bounding-box 中的概率也越高。
这样的做法利用了图片本身的结构化信息,方便直接从概率图确定最终的
bounding-box,避免向网络输入数以百计的 proposal,这也是 SO-DLT structured
output 得名的由来。三、在卷积层和全连接层中间采用 SPP-NET 中的空间金字
塔采样(spatial pyramid pooling)来提高最终的定位准确度。
(2)在离线训练中使用 ImageNet 2014 的 detection 数据集使 CNN 获得区分 object
和非 object(背景)的能力。
SO-DLT 在线跟踪的 pipeline 如上图所示:
(1)处理第 t 帧时,首先以第 t-1 帧的的预测位置为中心,从小到大以不同尺度
crop 区域放入 CNN 当中,当 CNN 输出的 probability map 的总和高于一定阈值
时,停止 crop, 以当前尺度作为最佳的搜索区域大小。
(2)选定第 t 帧的最佳搜索区域后,在该区域输出的 probability map 上采取一系列
策略确定最终的 bounding-box 中心位置和大小。
(3)在模型更新方面,为了解决使用不准确结果 fine-tune 导致的 drift 问题,使用了
long-term 和 short-term 两个 CNN,即 CNNS 和 CNNL。CNNS 更新频繁,使其
对目标的表观变化及时响应。CNNL 更新较少,使其对错误结果更加鲁棒。二
者结合,取最 confident 的结果作为输出。从而在 adaptation 和 drift 之间达到一
个均衡。
小结:SO-DLT 作为 large-scale CNN 网络在目标跟踪领域的一次成功应用,取
得了非常优异的表现:在 CVPR2013 提出的 OTB50 数据集上 OPE 准确度绘图
(precision plot)达到了 0.819, OPE 成功率绘图(success plot)达到了 0.602。远超当
时其它的 state of the art。
SO-DLT 有几点值得借鉴:
(1) > 针对 tracking 问题设计了有针对性的网络结构。
(2) > 应用 CNNS 和 CNNL 用 ensemble 的思路解决 update 的敏感性,特定参数取
多值做平滑,解决参数取值的敏感性。这些措施目前已成为跟踪算法提高评分
的杀手锏。
但是 SO-DLT 离线预训练依然使用的是大量无关联图片,作者认为使用更贴
合跟踪实质的时序关联数据是一个更好的选择。
剩余22页未读,继续阅读
资源评论
小猪猪同学
- 粉丝: 21
- 资源: 10
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功