1. 引言
目标跟踪是计算机视觉领域的基础研究之一,广泛地应用于自动驾驶、视频监控和机
器人视觉导航等各个领域,因而视觉目标跟踪技术的研究有着重大的实用价值.针对有些场
景对目标跟踪的实施新需求
[1]
,尽管当前的图形处理器(Graphics Processing Unit, GPU)能达
到其速度要求,但能耗与成本问题使其难以广泛应用到终端设备.如一种在 GPU 上加速目
标跟踪过程的方法
[2]
,解决了现有技术跟踪性能不高和实时性差的问题,但由于功耗大,
只能部署在云端服务器,终端数据需要实时传输到云端服务器处理,庞大的数据量导致云
服务器的计算压力过大,算力下沉至终端处理器.近年来随着深度学习的发展,基于该技术
的智能跟踪方法随之兴起,并获得更优的效果,然而当前的卷积神经网络复杂度高,算力
大,如跟踪网络常用的前端算法 VGG-16 处理一帧图像需要 30.76 GFLOPs,因此新兴的目
标跟踪算法的计算量也随之增加
[3]
,当前的神经网络加速器难以满足其实时算力需求.同时
基于现有的神经网络加速器难以高效加速跟踪算法的边框处理过程,阻碍了其目标网络的
加速效率,因而只能将边框处理部分的运算转移至 RISC 处理器,但这将导致跟踪任务的
系统延迟增大,无法实现实时处理.为了解决以上问题,本文提出一种面向深度学习目标跟
踪算法的硬件加速器,该加速器包含一种深度流水处理的神经网络加速器,结合一个独立
设计的后处理模块组合为端对端流水架构,可有效提升计算效率,实现目标跟踪的实时处
理.
2. 目标跟踪器的整体方案
2.1 SiamRPN 跟踪算法
近年来,深度学习目标跟踪算法以准确率高、稳定性强的特点迅速成为研究热点.本文
选用最具代表性的 SiamRPN 算法
[4]
进行加速设计,其卷积部分为孪生神经网络,后处理网
络由区域提取网络(Region Proposal Network, RPN)和边框提取单元构成,整体框图如图 1
所示.孪生神经网络第一个分支的输入图像是模板帧,以此分支的信息检测候选区域中的目
标; 第二个分支的输入图像为检测帧,即视频后续帧的图像,Φ(T)、Φ(S)表示两个分支的
输出特征图.特征图传入 RPN 网络后分别对 Φ(T)、Φ(S)再进行一次卷积处理,Φ(T)经过卷
积后通道数分别提升为原来的 2k 倍和 4k 倍,而 Φ(S)通道数则保持不变,随后以 Φ(T)为卷
积核和 Φ(S)做卷积运算,其输出特征图大小为 17x17,以通道数不同分为两个分支:分类
分支和回归分支.RPN 网络在该输出特征图的每个像素点上生成 k 个锚点框,作为初始框.
在分类分支,输出特征图包含 2k 个通道,表示 k 个锚点框的前景与背景的置信度; 在回归
分支,输出特征图包含 4k 个通道,分别表示 k 个锚点框坐标的偏移量集合.在回归分支,
线性回归单元以锚点框的坐标参数和偏移量集合为输入对锚点框进行线性回归,同时引入