没有合适的资源?快使用搜索试试~ 我知道了~
基于多阶运动参量的四旋翼无人机识别方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 36 浏览量
2023-02-23
16:47:43
上传
评论
收藏 2.06MB DOCX 举报
温馨提示
试读
29页
基于多阶运动参量的四旋翼无人机识别方法.docx
资源推荐
资源详情
资源评论
“低慢小”(飞行高度低、飞行速度慢、目标小)目标以其难以被探测、便于隐藏、适用
场景广泛的特点, 一直以来都是军事以及科研领域中的研究重点
[1-4]
, 其中“低慢小”目标的探
测识别更是相关课题中的核心和基础问题. 近年来, 四旋翼无人机为代表的新兴“低慢小”飞
行器因其成本低廉、操纵简单、难以被发现的特点, 在航拍、探测、检测等多个领域被广
泛应用. 但随之而来也带来诸多安全隐患, 如成都机场无人机“黑飞”逼停客机、默克尔总理
竞选会无人机潜入、叙利亚自制“武装无人机”自杀式袭击等. 这些已有公共安全事件说明
无序飞行的“低慢小”无人机已经严重威胁到社会秩序和公共安全.
近年来, 人工智能和计算机视觉的发展, 使得基于图像/视频的小目标检测与识别方法
的性能有了较大的提升, 成为研究此类问题的新手段
[5-8]
. 相比于以往基于声谱特征
[3-4]
、光
谱特征
[5-6]
、射频和雷达
[1, 9-10]
等方法, 基于机器视觉的方法具备系统简单、硬件体积小、场
景普适性强、探测距离远、识别粒度细等优点. 基于机器视觉的“低慢小”目标识别方法主
要包括表观特征方法
[11-26]
、运动特征方法
[27-35]
以及混合方法
[15, 36-45]
.
基于表观特征的方法, 如部件模型(Discriminatively-trained part model)
[11]
、Faster RCNN
神经网络
[12]
、SSD(Single shot multibox detector)神经网络
[26]
、积分通道(Integral channel)
[13]
等
在许多常见目标以及一些小目标识别任务中显著提升了识别精度. Zahangir 等
[24]
改进循环卷
积神经网络, 融合 Inception-V4 和残差网络结构, 形成 IRRCNN 识别网络完成对输入图像
的目标识别, 在多个数据集上, 如 CIFAR-10、CIFAR-100、TinyImageNet-200 以及 CU3D-
100, 达到最佳识别精度. 对于无人机目标来说, Schumann 等
[17-18]
提出了采用 Faster RCNN
网络进行识别的方法, 并在其建立的数据集上进行训练, 识别鸟类和无人机两类目标, 在
AVSS2017
[23]
测试集上取得了最高精度; Saqib 等
[25]
测试了不同结构的卷积神经, 得出采用
VGG16 结构的 FassterRCNN 神经网络具备最高识别精度; Aker 等
[14]
提出了将鸟类和无人机
在不同背景下合成的数据集生成方法, 用以训练无人机识别神经网络; Wu 等
[28]
提出通过将
显著性方法引入至卡尔曼滤波器, 完成对运动小目标的跟踪和定位, 该方法对于四旋翼无人
机的跟踪也具有较高精度. Carrio 等
[20-21]
在深度图中采用神经网络方法完成四旋翼无人机的
识别, 并在 Airsim 飞行仿真软件中建立深度图数据集, 用以训练识别方法, 得到了其数据集
上的最优识别精度. 但该方法对目标的表观和运动特征均未直接使用, 对于常见的识别场景
适用性较差、识别精度相对较低.
基于运动特征的方法, 主要分为两类, 一类是基于背景减除; 另一类是基于流方法. 背
景减除类方法的前提是假设相机不动或者仅有很小移动. 通过对背景进行建模, 从而达到仅
在图像中留下前景目标的目的, 此类方法
[27, 30-31]
计算复杂度低、适用场景广泛, 但仅能在背
景简单下具备足够精度; 流方法
[6, 32-34]
依赖于流向量的计算, 其适用于多目标场景、在复杂
场景中也具备较高召回率, 但对于识别任务来说, 针对小目标或者复杂场景计算精度不足,
计算复杂度和虚景率也较高. 基于深度网络的光流提取方法提高了光流向量的计算精度,
Dosovitskiy 等
[33-34]
提出 FlowNet、FlowNet2.0 等结构, 采用 U-Net 架构, 并融合多种网络结
构, 取得了目前最优光流提取性能.
融合运动以及表观特征的方法, 目前多以深度网络 (Deep neural network, DNN)为基础
框架, 主要包括卷积神经网络 (Convolutional neural network, CNN)
[37-41]
和循环神经网络
(Recurrent neural network, RNN)
[42-43, 46]
. T-CNN (Tublet CNN)
[37]
借用 Faster RCNN 中 RPN
(Region proposal network)的高效结构, 提出 Tubelet 结构关联上下文特征, 即通过光流法得
到的在连续多帧中同一目标识别矩形框, 并采用 LSTM (Long short-term memory)
[46]
网络作
为分类器完成分类. 此方法能够抑制虚景目标, 提升正样本的识别概率, 但对于小目标召回
率较低. DFF (Deep feature flow)
[38]
使用基于深度网络框架的 FlowNet
[33]
方法提取光流特征,
通过目标运动过程联系上下帧并筛选关键帧, 节省了对非关键帧特征提取和识别的计算过
程. Zhu 等
[39]
在像素级 (Pixel-level)融合通过 FlowNet 计算得到的光流区域的特征图, 融合
相邻多个特征图并输入到最终的判别网络中. 与以上两个工作类似, 本文方法也采用了光流
法提取上下帧目标的运动过程, 但并非综合运动过程中变化的外观特征, 而是重建目标运动
过程中的运动学参数. Bertasius 等
[40]
引入可变尺寸卷积 (Deformable convolution)对上下帧中
目标运动引入的额外特征进行融合, 而非采用光流联系上下帧. Luo 等
[41]
融合区域级特征
(Proposal-level)而非像素级, 其考虑候选区域内的语义特征, 并综合相邻两帧语义特征、位
置特征以及时间特征完成识别, 取得了 ImageNet VID
[47]
数据集中的最优性能. 以上方法主
要以 Faster RCNN 或 RPN 为主要框架, 近年来, 以 RNN 为框架的方法
[41-44]
在计算效率以及
精度上也达到了较高水平, Xiao 等
[42]
利用 ConvGRU 结构融合时空特征, 在 ImageNet VID
数据集上, 曾取得最优性能. Chen 等
[43]
提出的基于 ConvLSTM
[44]
和 SSD (Single shot
multibox detector)
[26]
网络结构, 并融合注意力机制的方法, 综合了多尺度的特征 (像素级和
目标级), 是目前综合计算速度与精度的高性能方法. 本文方法也采用了基于 RNN 结构的
GRU (Gated recurrent unit)网络
[43-44]
作为分类器, 但其输入为运动参量, 而非图像.
特别地, 对于“低慢小”目标的混合识别方法, Lv 等
[29]
通过融合时空两种特征, 完成了对
弱小飞行器目标的探测; Shi 等
[36]
提出采用改进粒子滤波的方法探测低速飞行小目标, 对于
海面背景的飞行器目标来说, 其相较与分型方法 (Fractal-based)和三特征方法 (Tri-feature-
based)性能更佳. 对于无人机目标来说, Farhadi 等
[23]
提出将前景检测结合目标形状进行识别
的方法, 在综合指标上, 取得了 AVSS2017
[14, 16, 23]
方法中第二高精度的性能. Sapkota 等
[19]
提
出利用级联检测的思路, 识别无人机后利用混合高斯概率假设密度滤波器跟踪无人机飞行
轨迹, 实现了两架无人机的实时跟踪. Rozantsev 等
[15]
融合了表观特征以及运动特征, 利用目
标运动补偿来提高识别精度, 即通过决策树和卷积神经网络估计目标在像平面的运动, 进而
采用卷积神经网络识别获得的图像立方体中的目标. 该方法在其提供的测试集中取得了目
前最优结果. 但该方法未考虑多干扰目标和多类别的识别, 难以应用在实际场景中.
相较于以往工作, 与文献[15]相似, 本文方法也基于融合表观和运动特征的思想, 采用
了文献[6, 32-36]中所涉及到的光流法进行运动特征提取, 并利用文献[42-43, 46]等工作中提
及的 GRU 网络完成目标判别. 但不同的是本文从运动学角度直接提取目标的运动特征, 而
非仅采用运动特征辅助串联前后帧表观特征的提取. 并且本文采取决策融合的方式而非特
征融合, 这样能针对性地充分考虑运动和表观两个不同维度的特征. 从算法适用条件及精度
来说, 以往工作都在一定程度上实现了无人机的跟踪和目标的识别, 但基本都要求单一纯净
背景下的单目标作为前提条件. 而对于低空干扰目标较多、背景较复杂这一现实约束, 这些
方法均无法做到高精度识别. 此外, 以往工作均采用对常见物体识别使用的通用框架, 并未
意识到无人机“低慢小”的特殊之处, 也未对此特点加以利用. 在构建相关实验数据集时, 也
未考虑无人机的特征, 涵盖的飞行场景较少.
本文以典型四旋翼无人机探测为目标, 综合其表观和运动特征, 提出了一种基于目标
多阶运动参量的识别方法 (Multi-order kinematic parameters based detection method, MoKiP).
本文中, 多阶运动参量是指一个运动参数的集合, 包括零阶运动参量(表观特征), 一阶运动
参量(速度、角速度), 二阶运动参量(加速度、角加速度), 以及更高阶的运动参量.
如图 1 所示, 该方法的核心思想如下: 首先提取并跟踪运动候选区域, 并估计候选区
域的深度信息, 然后计算出相应的非零阶运动参量, 之后, 采用梯度提升决策树以及记忆神
经网络完成基于运动特征的短期和长期识别. 同步地, 采用 Faster RCNN
[12]
深度网络对零阶
运动参量(表观特征)进行识别. 最后, 将零阶和非零阶两部分识别结果, 按照识别概率加权
平均融合, 得到最终的判别结果和类别概率.
图 1 本方法整体流程图
Fig. 1 The overall flowchart of our method
下载: 全尺寸图片 幻灯片
实验证明, 在目标像素较少、背景复杂以及干扰目标较多的情况下, 相比于以往方法,
本文提出的方法具有更高的识别精度. 此外, 通过灵敏度分析, 本文进一步定量分析了各阶
运动参量对识别精度的贡献程度, 并发现二阶参量、重力方向参量是识别过程中影响较大
的重要特征.
本文的主要贡献如下:
1)提出基于多阶运动参量的“低慢小”识别方法. 较好地处理了低空、复杂背景以及多
目标场景下的识别问题.
2)发现了二阶运动参量以及沿重力方向的运动参量最能反映无人机与其他干扰目标在
运动特征上的差异.
3)建立了多尺度无人机数据集. 包含四旋翼无人机以及行人、车辆、鸟类等干扰目标
的相关数据. 并为其它干扰目标进行了数据采集和标定.
1. 基于多阶运动参量的无人机识别方法
1.1 总体识别流程
本文在充分挖掘无人机运动信息的基础上, 提出了一种基于多阶运动参量判别融合的
无人机识别方法. 其输入为场景的视频片段, 输出为目标的识别矩形框和所属类别概率. 该
方法的流程如图 1 所示: 首先, 利用 ViBe+ (Visual background extractor)
[30]
法, 提取候选运动
区域. 然后, 分别提取无人机的表观特征和运动特征, 并分别根据这两类特征识别目标类别.
最后, 融合两个识别结果, 给出最终识别的概率.
本文中定义物体的表观特征为零阶运动参量. 其处理流程如图 1 下半分支所示. 利用
Faster RCNN 深度神经网络, 根据输入视频获得目标图像特征的识别矩形框和类别概率. 图
1 上半分支根据目标运动特征, 即非零阶运动参量进行识别. 该方法首先利用 ViBe+法提取
运动区域, 其次, 通过单目估计或物理测量等方法获得运动目标区域深度值. 之后, 根据深
度图, 估计运动区域内目标的零阶以上运动参量. 然后, 训练得到基于运动参量的 GBDT 决
策树 (Gradient boosting decision tree)
[48]
和 GRU (Gated recurrent unit)
[46]
记忆网络, 分别实现
对无人机的短时和长期的识别, 并得出识别矩形框和所属类别概率. 最后, 将零阶和非零阶
两部分识别结果, 按照识别概率进行加权平均融合, 得到最终结果和类别概率.
1.2 基于零阶运动参量的特征提取方法
零阶运动参量代表了目标“不动”时所传递的信息, 也就是其表观特征. 以往工作中已
经有了很多成熟有效的算法
[11-13, 26, 46, 49]
进行表观特征提取, 本文采用了以提取区域候选网络
(Region proposal network, RPN)为前端的两阶段 Faster RCNN
[12]
神经网络. 其在 Pascal
VOC
[11]
、ImageNet
[47]
等公开数据集中, 均取得了最优性能 (State-of-the-art, SOTA). 本文使
用基于 Resnet101
[49]
框架的 Faster RCNN 网络, 以获得目标识别的矩形框, 以及 5 类目标的
识别概率. 所采用的 Resnet101 结构在 ImageNet 数据集中预训练, 并在本文多尺度无人机
数据集 (Multi-scale UAV dataset, MUD)中参数细调 (Fine-tune). 对于 RPN 网络的训练, 尺
度参数设置为 5 (2, 4, 8, 16, 32), 3 个矩形框比例分别设为(0.5, 1, 2), 总共 15 个锚 (Anchors).
在训练时, 使正负样本数比例达到 1:1.
在使用本文融合方法进行识别时, 采用按训练识别概率加权
[50]
的方法, 融合基于零阶
与下文非零阶的识别结果, 得到最终判别结果. 具体来说, 对于某一候选区域、某一类别的
识别概率为分别采用零阶、非零阶运动参量方法识别得到的概率按测试集(在调参时按训练
集)准确率加权求和的结果. 若某一区域仅被零阶或非零阶中的一种方法所识别, 则另一方
法识别概率按零计算.
1.3 基于非零阶运动参量的特征提取方法
图 2 给出了基于非零阶运动参量识别的详细流程, 其输入为运动区域的图像流, 输出
为识别得到的识别矩形框与类别概率. 以下各小结将根据运动特征识别的流程, 依次阐述识
别过程中的各个环节. 主要包括目标运动区域提取、运动参数辨识、候选目标姿态测量、
目标类别与运动参量的条件概率密度函数估计等. 其中, 参数辨识过程包括了相机运动的识
别与补偿、水平面估计、深度估计等. 对于条件概率密度函数的估计, 本文利用梯度提升树
完成相邻几帧的短时识别; 利用 GRU 记忆网络完成长时识别. 在描述每一步处理的过程中,
本文也将分析每个环节对最终识别效果的影响.
图 2 基于多阶运动参量的目标识别方法流程图(MoKiP)
Fig. 2 Flowchart of multi-order kinematic parameters based detection method (MoKiP)
下载: 全尺寸图片 幻灯片
1.3.1 运动目标区域提取
疑似目标区域提取是本文所述识别方法的第 1 步. 在无人机识别问题中, 目标所处的
环境复杂多样, 反映到图像, 则会导致目标图像具有背景变化剧烈、多目标的特点. 所以本
剩余28页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3676
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功