没有合适的资源?快使用搜索试试~ 我知道了~
基于显著图融合的无人机载热红外图像目标检测方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 189 浏览量
2023-02-23
20:16:33
上传
评论
收藏 1.42MB DOCX 举报
温馨提示
试读
16页
基于显著图融合的无人机载热红外图像目标检测方法.docx
资源推荐
资源详情
资源评论
近年来, 以无人机(Unmanned aerial vehicles, UAV)为平台的图像获取和处理技术在交
通、安防和环保等领域得到快速发展. 彩色图像在理想光照条件下, 对目标检测有很好的效
果, 可以较容易地利用深度学习技术找到图像中兴趣目标的具体位置并识别其类别. 然而,
在夜间或缺乏足够光照的情况下, 基于彩色图像的目标检测往往难以达到预期效果, 容易造
成漏检或误检. 红外相机非常适合在这种条件下成像, 因为它们能感应到目标物发出的辐射
且不受光照条件的限制. 面向行人和车辆检测的需求, 本文研究一种适用于以无人机为平台
获取的热红外图像数据智能处理算法.
相比于彩色图像, 热红外图像有着对比度低、纹理特征弱等缺点. 因此, 在彩色图像和
热红外图像之间存在明显的互补. 为了开发这种互补的潜力, 相关学者做了大量的工作来构
建融合彩色和热红外图像的数据结构
[1]
. 但是彩色−热红外图像对并不总是可用的, 因为它
们实时同步成像的成本很高, 而且数据处理前还需要图像配准准确, 图像错位还会降低检测
器的性能. 这些原因促使本文探索只使用热红外图像来进行目标检测的机制. 为了解决热红
外图像中目标检测的难题, 本文提出使用显著图来进行图像增强. 文献[2]通过在颜色、方
向、运动和深度上与周围环境的不同来定义特定位置的显著性. 在一个场景中寻找显著物
体可以理解为一种视觉注意机制, 它突出了给定场景中属于显著物体的像素. 因此, 本文假
设显著图和热红外图像结合将帮助提升目标检测模型的性能. 为验证此假设, 首先通过训练
一个 YOLOv3 目标检测模型
[3]
来建立评价参考基准, 它仅使用制作的热红外图像数据集来
检测目标. 然后, 使用 BASNet
[4]
生成显著图融合热红外图像, 在此基础上训练目标检测模
型. 此外, 由于深度显著性网络需要对显著性对象进行像素级标注, 因此实验中使用行人及
车辆的像素级掩膜对制作的热红外图像数据集进行标注, 以方便对显著性目标检测的研究.
针对无人机平台内存和算力的局限性, 本文设计了 YOLOv3-MobileNetv2 网络, 利用
轻量化网络 MobileNetv2
[5]
替代 YOLOv3 原有的特征提取网络 DarkNet53, 在大量减少网络
参数的同时显著提升运行速度. 此外, 使用 Focal loss
[6]
改进 YOLOv3 原有的损失函数, 解决
正负样本不均衡问题, 使得网络专注于困难样本的计算.
本文的主要贡献如下:
1)首次将显著图用于提高无人机视角下的热红外图像目标检测性能, 通过设计不同的
融合方案, 深入分析了显著图对热红外图像中行人及车辆目标检测的影响.
2)以轻量化网络 YOLOv3-MobileNetv2 改进原有模型, 在平均精确度、模型尺寸和检
测速度方面取得了很好的平衡, 即在计算资源和存储资源有限的情况下实现了最优的精度,
将卷积神经网络(Convolutional neural network, CNN)
[7]
更好地应用于无人机场景中.
1. 相关工作
目前, 较少有论文探讨利用无人机结合热成像技术进行目标检测的深度学习方法. 本
节回顾了在目标检测、显著性检测以及模型压缩和加速等领域的相关工作.
1.1 目标检测
在过去的 20 年里, 大量的研究工作致力于彩色图像中的行人及车辆检测. 于雪松等
[8]
针对人体运动跟踪领域中的自遮挡现象, 提出了一种基于概率模型的行人四肢自遮挡检测
算法. 该算法通过马尔科夫模型和椭圆肤色模型将行人四肢自遮挡状态的识别转换为计算
自遮挡状态转换概率的过程. 实验表明, 该方法具有较高的准确性. Dollár 等
[9]
提出了采用积
分通道特征(Integral channel feature, ICF)和 Boosting 算法相结合的方法, 提升了车辆检测的
效果. 与传统的检测算法相比, 近几年 CNN 在目标检测上取得了重大的突破. 基于 CNN 的
目标检测算法主要分为两大类: 一阶和二阶目标检测算法. 它们之间的主要区别在于是否存
在提取候选区域的级联模块. 二阶目标检测算法中具有代表性的是 R-CNN (Region CNN)系
列检测算法
[10-12]
, 它们通过使用级联模块可以使网络有针对性地检测疑似目标区域的物体,
但由于多了这样的级联模块, 提升精度的同时会使得模型的复杂度升高, 在检测速度上低于
一阶检测算法, 不适用于无人机上的实时目标检测. 一阶目标检测算法虽然在检测精度上表
现欠佳, 但其检测速度非常快. 其中最具有代表性的是 Redmon 等
[13-14]
提出的 YOLO (You
only look once)系列目标检测算法, 该算法将图像划分成[Math Processing Error]S×S 的格子,
每个格子负责目标中心在该格子的目标检测, 利用回归思想同时完成检测与识别. 基于此,
本文采用 YOLOv3 算法作为无人机载热红外图像中行人及车辆目标检测识别的基础模型.
近年来, 基于无人机的交通监控系统研究十分活跃. Ruhé 等
[15]
使用无人机采集了城市
道路车辆信息, 结合地理信息系统(Geographic information system, GIS)平台, 对地面交通状
况进行预测, 完成流量、车速等信息的提取. 文献[16]通过安装在高架平台上的摄像机模拟
无人机的视角, 提出一种基于 Haar 特征的人体部位检测器. 为提高无人机道路检测的实时
性和鲁棒性, 文献[17]提出一种基于改进的图割(Graph cut)算法的道路检测方法, 针对航拍
图像各个区域具有不同对比度的特点, 将单一的图像全局对比度矩阵替换为局部对比度矩
阵.
随着热红外成像技术的广泛应用, 越来越多的研究专注于利用热红外图像实现对行人
及车辆的有效检测. 热红外图像与普通的可见光图像相比差异明显, 热红外图像有着纹理特
征不明显、成像对比度低、噪声较多等特点, 这些物理特性使得热红外场景下的目标检测
一直都具有挑战性. 针对这一问题, 目前的主流方法是将热红外图像和可见光图像融合, 结
合两种图像互补性优势, 获得对于场景全面准确的图像描述. 张秀伟等
[18]
提出了一种基于
Co-motion 的可见光与热红外图像序列自动融合方法, 引入 Co-motion 运动统计特征来解决
异源图像序列融合问题, 从而避开了异源图像相似图像特征提取和精确运动检测的难题. Li
等在文献[19]中设计了光照感知的神经网络, 它自适应地融合了彩色和热红外子网络, 并根
据光照条件采用加权方案融合结果. 在文献[20]中, 作者引入了区域重建网络, 利用 CNN 对
可见光与热红外数据之间的关系进行建模, 然后将这些特征输入到多尺度检测网络中进行
鲁棒的目标检测.
然而, 可见光对光照变化以及其他环境影响较为敏感, 尤其是在夜间, 采用可见光获取
图像的方法将完全不可用, 故可见光与热红外图像融合也无从谈起. 此外, 同时获取同一场
景的可见光与热红外图像需要两种不同的传感器, 图像采集过程较为复杂, 对设备要求较
高. 在此背景下, 本文研究仅使用热红外图像进行目标检测, 在克服夜间低能见度并实现全
天候检测的同时, 简化检测过程, 通过算法的优化提高检测效果.
1.2 显著性检测
显著性目标检测的目的是突出图像中最明显的目标区域, 它可以引导机器视觉系统将
有限的资源分配给少数几个显著区域, 为后续的视觉处理提供极大的便利. 从理论研究的层
面来说, 可以把图像的显著性检测研究分为两大方向, 即数据驱动的显著性检测和目标驱动
的显著性检测. 数据驱动的图像显著性区域检测算法主要关注由图像底层特征本身所引起
的视觉刺激, 这类算法由内部数据驱动, 与目标任务无关. 与此相反, 目标驱动的显著性检
测算法主要关注与任务相关的图像内容, 显著性检测的结果受到检测任务的决定性支配.
Itti 等
[21]
最早提出认知视觉注意模型, 该模型提取场景中的特征显著图并采用线性合并
的方式整合为总显著图, 以赢者通吃(Winner takes all)和返回抑制相结合的方式来引导视觉
注意焦点的选择和转移. Hou 等
[22]
提出基于频域的谱残差法, 对图像进行二维傅里叶变换后
得到频域的相位谱和幅度谱, 作者认为频谱域上的统计奇异对应图像的异常区域, 因此该区
域的物体显著性高. 利用深度学习技术进行显著性检测是近年来的研究趋势. He 等
[23]
提出
了一种新的超像素方法, 称为 Super-CNN, 可以有效地学习显著性的内部表示. 与传统的卷
积网络相比, 该网络能够学习分层对比度特征, 通过多尺度网络结构检测显著性区域. Hou
等
[24]
提出了一种快速的显著性检测方法, 在整体嵌套边缘检测的基础上, 增加了一种高层信
息指导低层信息的跳层连接结构, 从而构建了一种简单、有效、快速的端对端的显著性物
体检测网络. 张芳等
[25]
设计实现了一种全卷积神经网络与低秩稀疏分解相结合的显著性检
测方法, 将图像分解为代表背景的低秩矩阵和对应显著区域的稀疏噪声, 结合利用全卷积神
经网络学习得到的高层语义先验知识, 检测图像中的显著区域. 本文使用了目前最先进的网
络 BASNet 生成热红外图像的显著图, 并在第 3.3.1 节中进行结果评估.
1.3 模型压缩和加速
虽然现在 CNN 的特征提取能力随着网络层数的加深正在不断地提升, 但在实际工程
中还需要考虑模型尺寸和模型预测速度. 深度 CNN 结构包含几十层甚至上百层的网络, 有
着大量的权重参数, 如何调整其结构以在准确度、尺寸和速度之间实现最佳平衡已经成为
一个很受关注的研究领域.
为了解决这个问题, 众多轻量化网络结构纷纷被提出. SqueezeNet
[26]
提出了一种称作
Fire 的模块, 它分为两个部分: 一个由 1×1 卷积核构成的压缩层以及一个由 1×1 和 3×3 卷
积核组成的扩张层. 通过使用这种模块, SqueezeNet 能在保持模型精度不损失的情况下达到
50 倍压缩率. ShuffleNet
[27]
充分利用了分组卷积和通道混洗进一步提高模型效率, 在减少计
算量的同时解决了组间信息流通问题. 而 Google 提出的 MobileNet 系列模型
[28-29]
是专门针
对移动和嵌入式设备开发的轻量级 CNN 结构. MobileNetv1 采用一种深度可分离卷积的高
效卷积方法来提升运算速度. 深度可分离卷积将一个标准卷积分解成两步来实现, 第 1 步是
深度卷积, 即对每个输入通道用单个卷积核进行卷积运算; 第 2 步是一个 1×1 卷积, 即逐点
剩余15页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3652
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功