反馈学习高斯表观网络的视频目标分割.docx资源-CSDN文库

版权申诉

95 浏览量 2023-02-23 16:49:00 上传评论收藏 1.52MB DOCX 举报

资源推荐

资源详情

资源评论

视频目标分割

[1-6]

通常被建模为半监督学习任务, 即在给定初始帧目标掩模标注的前提

下, 精确分割出后续帧中特定目标区域. 视频目标分割在众多计算机视觉任务中具有重要的

应用价值, 包括视频编辑

[7-8]

、目标追踪

[9-10]

和动作识别

[11-12]

等. 近年来, 随着深度学习的兴

起, 视频目标分割也取得了突破性进展. 但是, 精度高且速度快的算法仍然非常匮乏, 其原

因在于所学深度模型仍难以有效应对复杂视频场景的变化, 如严重遮挡、快速运动、相似

目标干扰等.

为此, 一些视频目标分割算法在不同方面进行了尝试. 其中, 文献[1-2, 13-14]中的算法

在测试阶段用第 1 帧及其标注在线微调网络; 另外, 文献[2, 15-17]中的算法将视频分割任务

视为掩膜逐帧传播过程. 但是, 由于未充分考虑复杂场景的表观建模, 这些方法在一些复杂

场景下表现不佳. 为此, 一些算法试图通过增强目标与背景的特征表征力来提升表观模型的

判别力. 譬如, 文献[3]通过利用匹配(Matching)操作与排序注意力模块学习查询帧中的每个

像素与引导帧中所有像素之间的相似程度来构建鲁棒的表观模型; 文献[4]设计了两个新颖

的子网络调制器, 将视觉和空间信息通过网络调制构建表观模型, 并嵌入分割子网络进行学

习. 但是, 这些方法只利用单帧的特征学习表观建模, 未能充分捕获视频的时域上下文信息,

难以自适应复杂场景的变化. 针对该问题, 本文设计出一种在线多帧、多尺度高斯表观网络

模块, 通过在线学习目标与背景的特征分布来提升表观模型的判别力.

除此之外, 大量掩膜传播类算法

[2-3, 15-18]

将前一帧的预测结果作为当前帧的额外输入进

行处理. 这种结构可视为时间维度的循环结构. 但是, 鲜有算法在空间维度也构建循环结构,

而空间维循环可将高层特征反馈到低层, 从而充分利用前、后层特征信息学习更加鲁棒的

表观模型. 鉴于此, 本文通过引入这种反馈机制

[19-20]

设计出反馈多核融合模块, 用于引导学

习更加鲁棒的表观模型.

本文的主要贡献总结如下:

1) 提出一种在线多帧、多尺度高斯表观模型, 充分学习多尺度特征的统计信息, 增强

对目标与背景表观的判别力;

2) 将信息反馈的思想引入视频目标分割, 设计出一种反馈多核融合模块, 允许前层特

征捕捉后层的有用信息;

3) 本文算法与当前最先进的方法相比, 在多个标准数据集上达到领先水平, 证明了本

文算法的优越性.

1. 相关工作

1.1 基于在线微调的视频目标分割

一些视频目标分割算法严重依赖在线学习. 文献[1]及其扩展算法

[21]

预先训练一个语义

分割网络, 然后利用初始帧微调该网络, 使其关注分割目标; 文献[13]在文献[1]的基础上引

入了在线自适应机制以学习跨视频目标表观变化. 这类方法将视频简单地视为无关图片的

集合, 忽略了视频序列的时间相关性, 严重影响建模精度. 为此, 一些方法开始考虑采用简

单的时序信息建模, 通过传播上一帧掩膜来建模时序信息. 文献[2]利用了光流算法传播掩

膜, 首创了掩膜传播类视频目标分割方法; 文献[22]将 4 个不同功能的子网络组合为一体进

行微调, 获得 2018 DAVIS

[23]

挑战赛的冠军. 尽管在线微调能够大幅提升视频目标分割的精

度, 但是严重影响运行效率, 导致其难以应用于对实时性要求较高的实际任务之中.

1.2 基于离线学习的视频目标分割

为降低运算成本并达到精度与速度之间的平衡, 最近提出的一些视频目标分割算法抛

弃了在线微调过程, 转而只依赖于离线学习. 文献[16]提出了基于孪生网络的视频目标分割

模型, 其中, 子网络 1 对初始帧及其掩模标注进行编码, 子网络 2 对当前帧和上一帧预测结

果进行编码. 两者的输出结果再通过全局卷积(Global convolution)进行融合; 另外, 文献[18]

在时空域引入非局部(Non-local)注意力机制来充分利用视频中丰富的时序信息, 在多个标准

数据集上都表现出优异的性能.

1.3 基于表观建模的视频目标分割

表观建模对视频目标分割至关重要. 文献[24]设计了软匹配层来计算相似得分图; 文献

[25]同时进行全局匹配和局部匹配, 并结合了参考帧和上一帧的信息学习鲁棒的表观模型;

文献[3]则将掩膜传播与特征匹配结合, 优势互补, 性能表现出色;文献[15]和文献[26]分别设

计了专门的目标表观模型来自适应学习目标和背景区域之间的差异.

1.4 反馈机制

近年来, 反馈机制

[19-20]

在视觉任务中得到了广泛应用, 如图像超分

[27]

、显著目标检测

[28]

、人群计数

[29]

等. 文献[27]利用反馈结构, 以高层特征补充学习浅层表征, 取得不错效果;

文献[28]在解码器中应用多阶段反馈机制, 进一步纠正显著图估计偏差, 提升了显著性检测

的精度; 文献[29]设计了一种通用架构, 将自顶向下的信息以反馈的形式传递给自底向上的

网络进行特征学习, 在多个数据集上表现出优异性能.

2. 本文方法

如图 1 所示, 本文网络主要包含引导、查询与分割三个分支. 其中, 引导与查询分支为

在 ImageNet 数据集上预训练的 ResNet101 网络, 通过共享网络权重分别用于提取引导帧与

查询帧的深度特征. 深度卷积网络各层特征的特性不同: 低层富含纹理细节信息, 高层富含

语义信息, 而中层则介于两者之间. 本文将利用多层特征构建多尺度表观网络, 以充分利用

它们之间的互补优势.

剩余13页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3906
资源: 1万+

反馈学习高斯表观网络的视频目标分割.docx

基于前景感知视觉注意的半监督视频目标分割.docx

基于单片机的数字电能表设计开题报告.docx.docx

基于MATLAB的高斯白噪声信道分析实施报告.docx

基于MATLAB的高斯白噪声信道分析报告书.docx

[uibot]初级开发指南教程之无目标命令.docx

网络安全专业术语对照表.docx

武汉理工大学网络实验报告1-学习网络设备和网络命令.docx

基于Matlab的图像灰度分析及高斯白噪声的研究.docx

基于高斯建模和YoLo V3目标检测的遗留物检测方法.docx

软件项目交付过程中涉及的各类申请表、计划、说明说等文档

人工智能论文：基于深度学习的目标检测技术综述.docx

基于YOLOv3多伯努利视频多目标检测跟踪方法.docx

高斯白噪声的matlab实现.docx

高斯白噪声地matlab实现.docx

企业网络视频监控方案.docx

21种常见的网络推广方法.docx

最新整理学院网络安全调研报告.docx.docx

计算机网络模拟试题.docx.docx

浅析当代大学生应如何树立正确的网络观.docx

相关实用应用程序（Windows可用）

李飞飞自传 我看见的世界 The World I see

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

第十九届研电赛-技术论文模板

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

智联招聘：2024年大学生就业力调研报告.pdf

4个亲测好用的ChatGPT4渠道

1.txt

最新资源

李飞飞自传我看见的世界 The World I see