频域内面向目标检测的领域自适应.docx资源-CSDN文库

版权申诉

53 浏览量 2023-02-23 16:47:59 上传评论收藏 315KB DOCX 举报

资源推荐

资源详情

资源评论

0. 引　言

目标检测是计算机视觉中的一个重要任务。近年来，基于卷积神经网络

（Convolutional Neural Networks，CNN）的工作大幅提高了目标检测的精度。目前，绝大

多数目标检测算法以有监督的方式进行训练，数据标注工作需要耗费大量人力资源。此

外，训练和测试样本间的差异性导致目标检测算法在新场景中的泛化能力不强。以不同天

气下的检测任务为例，用晴朗天气下采集的图像训练的检测模型在雾霾天气下的检测精度

通常较低。针对该问题，现有的解决方法主要分为两种：一是使用图像无监督转换的方

式，将已有标注的图像（源域）转换到目标域，构建新的数据集进行训练；二是采用领域

自适应的方式，将源域和目标域的数据映射到同一特征空间，以减小不同领域之前的差

距。然而，这两种方法均存在一定的局限性。受计算资源和存储空间的限制，图像无监督

转换通常仅能接受低分辨率的输入（如 CycleGAN

[1]

仅接受 256×256 和 512×512 的输入图

像），对于高分辨率的输入图像，通常的做法是将原始图像降采样后输入网络，之后再升

采样回原始分辨率，这种方式造成了细节内容的损失，难以获得高清晰度的输出图像且不

利于后续检测任务。另一方面，领域自适应的效果也同样受到输入图像尺寸的影响。

为了减少降采样操作造成的信息丢失并节省计算资源，受到频域能量集中特性的启

发，文中结合无监督图像转换和基于对抗的领域自适应两种方式，提出了一种面向目标检

测的频域内的领域自适应方法。该方法分为两个阶段，第一阶段通过无监督图像转换的方

式将带有标注的源域图像（如晴天图像）变换到与目标域（如雾天图像）相近的图像，并

将变换后的图像所在的域定义为中间域。第二阶段通过基于对抗学习的领域自适应方法将

中间域的数据与目标域（如真实有雾图）的数据在特征空间内作适配，两个阶段均在频域

内完成。由于图像不同频带具有不同的视觉重要性，频域系数具备天然的可压缩属性。图

像变换到频域后，能量集中到低频和中频频带，对少数几个频率系数处理就可以实现无监

督转换和领域自适应，降低了训练和测试过程对计算资源和存储空间的要求。实验结果表

明，第一阶段无监督图像转换能够生成与目标域相近的中间域图像，第二阶段基于对抗学

习的领域自适应方法能够减少传统降采样操作造成的信息丢失，并显著提高目标域的检测

性能。

1. 相关研究工作

1.1 目标检测

近年来，绝大多数目标检测算法都采用基于卷积神经网络 CNN 的结构

[2]

，这些工作

又可以分为基于区域生成的两阶段方法和直接获得检测结果的一阶段方法。在两阶段方法

中，R-CNN

[3]

使用选择性搜索（Selective Search）得到物体的候选框，并使用支持向量机

（Support Vector Machine，SVM）对特征进行预测。Fast R-CNN

[4]

改进了特征的预测方

式，使用神经网络进行检测框的分类与回归。Faster R-CNN

[5]

进一步改进了 Fast R-CNN，

使用区域生成网络（Region Proposal Network，RPN）替代耗时的选择性搜索，实现了实时

目标检测算法。一阶段检测方法的代表性算法有 SSD

[6]

、YOLOv3

[7]

、RetinaNet

[8]

等，这类

方法能够进一步提高目标检测的实时性能。吴天舒等人

[9]

结合深度可分离卷积，采用轻量

化特征提取最小单元对 SSD 做轻量化处理，使其可以在移动设备上运行。遆晓光等人

[10]

将

视频图像向二维频域投影后，结合主动滤波和图像重构，能够检测出弱小运动目标。吴言

枫等人

[11]

通过提取图像中的显著性区域，并使用自适应双高斯算法分割出前景，提升了复

杂天空背景下的目标检测精度。此外，还有一些方法通过改进检测器中的结构

[12-13]

来提升

复杂背景下以及小目标的检测精度。尽管基于卷积神经网络的检测器已经达到了较高的精

度，但是现有检测模型对训练集与测试集之间分布不一致性较为敏感，在新场景的应用中

泛化性能较差。

1.2 领域自适应和无监督图像转换

经典的有监督学习任务往往假设训练集和测试集分布一致，但是实际测试数据一般与

理想环境下的训练数据有很大差异，迁移学习（Transfer Learning）是应对这一问题的主要

技术。

领域自适应（Domain Adaptation）是迁移学习的一种，其主要思想是将不同领域（如

不同天气的图像）的数据映射到同一个特征空间，以减少领域之间的差距，提高模型的泛

化性和鲁棒性。领域自适应一开始被用于图像分类任务，然后推广到目标检测等任务，领

域自适应总体上可以分为基于人工定义约束的方式和基于对抗训练的方式。前者通过缩小

两个分布之间的距离度量实现源域与目标域特征之间的对齐，常见的度量分布之间距离的

方法有 KL-散度、H 散度、最大平均差距（Maximum Mean Discrepancy，MMD）等。

Ganin 等人

[14]

使用基于对抗的方法使神经网络缩减域差异，并提出了梯度反转层（Gradient

Reversal Layer, GRL）。梯度反转层应用在数据特征与域鉴别器之间，在前向传播过程中

梯度保持不变，在反向传播过程中梯度方向取反，使得域鉴别器与主任务网络能够对抗地

进行训练，实现了真正意义上的端到端训练，避免了生成对抗网络（Generative Adversarial

Nets，GAN）中生成器与鉴别器交替训练的模式。近年来，一些研究通过多阶段、多尺度

训练、特征融合、注意力机制、去耦合学习等方法提升了领域自适应的效果

[15-18]

。

无监督图像转换需要在不成对的图像样本之间学习一个映射，将一个领域的图像映射

到另一个领域。无监督图像转换的方法也可以用于领域自适应。CycleGAN

[1]

中提出了循环

一致性损失，将图像转换到另一个领域后再使用逆映射转换回来，并要求经过循环变换的

图像与输入图像一致，同时在两个领域中引入了鉴别器对相应的映射进行约束。UNIT

[19]

算

法中提出了共享潜空间（Shared latent space）思想，假设不同域的图像能够映射到同一潜

空间。基于这个思想，该算法将图像在不同域之间的变换过程拆分为潜空间编码和解码两

个子过程，并引入变分自编码器对潜空间向量进行约束并结合其它限制条件来提升无监督

图像转换的效果。无监督图像转换尽管能够生成与目标域十分相近的图像，但在计算资源

受限的条件下，图像转换网络往往只能接受低分辨率图像作为输入。此外，由于无监督图

像转换本身是一个欠定问题，无法保证生成图像分布与目标域完全相同，在进行下游计算

机视觉任务时仍然存在特征分布不一致的领域偏移（Domain shift）问题。

1.3 频域内的深度学习与领域自适应

Xu 等人

[20]

首次提出在频域内训练神经网路，使用离散余弦变换（Discrete Cosine

Transform, DCT）后的变换系数作为输入，并应用于图像分类和分割任务。

Yang 等人

[21]

以一种非学习的方式对源域和目标域的图像分别进行快速傅里叶变换

（Fast Fourier Transform，FFT），然后使用目标域图像幅值的中心（低频）区域替换源域

图像相应的幅值并保持相位不变，之后采用快速傅里叶逆变换（Inverse Fast Fourier

Transform，IFFT）还原出图像。该算法不需要训练，能在一定程度上实现图像间的领域变

换。

2. 基于频域的领域自适应方法

传统的目标检测和领域自适应方法一般在空域进行，以空域像素作为输入，在一些资

源受限的场景下，例如移动设备、嵌入式系统中，由于图像数据量很大，在空域进行计算

会带来巨大的计算开销。为了提高推理速度、降低通信带宽和内存开销，传统方法通常将

高分辨率的空域 RGB 图像降采样为低分辨率的图像。这种方法造成的信息损失对机器视

觉任务的性能有明显影响。

文中利用频域变换的能量集中特性，实现计算资源和检测性能的平衡，所提算法先将

输入图像从 RGB 空间转换到 YCbCr 空间，然后使用离散余弦变换 DCT 得到图像的频域表

示。在此基础上，文中提出了一种频域内面向目标检测的领域自适应方法。以不同天气下

的检测任务为例，源域是晴朗天气下采集的图像，目标域是雾霾天气下采集的图像。由于

晴朗天气图像和雾霾天气图像差距很大，直接在源域 SS 域（晴朗天气）图像和目标域 TT

域（雾霾天气）图像之间做领域自适应十分困难。受到 CycleGAN

[1]

的启发，文中先采用无

监督图像转换的方式，将源域图像转换为合成的雾霾图像（中间域），并记为 II 域，然后

使用对抗学习的方式使检测器实现在 II 域和 TT 域之间的领域自适应，算法整体框架如图

1 所示。

剩余11页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3663
资源: 1万+

频域内面向目标检测的领域自适应.docx

时域和频域特征提取Matlab编程实例.docx

能时频域信息融合的信源被动定位.docx

基于MATLAB的控制系统频域设计.docx

基于MATLAB分析语音信号频域特征-工程设计报告.docx

线性离散系统的有限频域集员故障检测观测器设计.docx

带负载阀控缸系统频域稳定性分析研究.docx

归一化与频域LMS自适应滤波器_lms自适应滤波器_频域LMS_频域LMS_频域lms_

Z变换和系统频域特性的MATLAB实现.docx

分段块频域自适应滤波器算法

基于 Labview 的信号时域与频域关系研究开题报告.docx

匹配滤波频域方式2详解.docx

matlab频域图像处理 均值 低通 高通.docx

自动控制原理实验七基于MATLAB控制系统频域法串联校正设计.docx

空域和频域图像处理增强 (2).docx

机械测试信号时域和频域特征分析.docx

非最小相位系统的闭环频域辨识算法.docx

西工大信号上机实验3--连续LTI系统的频域分析.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

李飞飞自传 我看见的世界 The World I see

农村公交与异构无人机协同配送优化

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

4个亲测好用的ChatGPT4渠道

基于LSTM的财务因子预测选股模型.zip

基于LSTM的多因子选股策略.zip

学术海报模板+论文科研+研究生

最新资源

matlab频域图像处理均值低通高通.docx

李飞飞自传我看见的世界 The World I see