没有合适的资源?快使用搜索试试~ 我知道了~
反馈学习高斯表观网络的视频目标分割.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 95 浏览量
2023-02-23
16:49:00
上传
评论
收藏 1.52MB DOCX 举报
温馨提示
![preview](https://dl-preview.csdnimg.cn/87485993/0001-fea2f58c7a2c7391d8912f671148dc3a_thumbnail-wide.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
试读
14页
反馈学习高斯表观网络的视频目标分割.docx
资源推荐
资源详情
资源评论
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/release/download_crawler_static/87485993/bg1.jpg)
视频目标分割
[1-6]
通常被建模为半监督学习任务, 即在给定初始帧目标掩模标注的前提
下, 精确分割出后续帧中特定目标区域. 视频目标分割在众多计算机视觉任务中具有重要的
应用价值, 包括视频编辑
[7-8]
、目标追踪
[9-10]
和动作识别
[11-12]
等. 近年来, 随着深度学习的兴
起, 视频目标分割也取得了突破性进展. 但是, 精度高且速度快的算法仍然非常匮乏, 其原
因在于所学深度模型仍难以有效应对复杂视频场景的变化, 如严重遮挡、快速运动、相似
目标干扰等.
为此, 一些视频目标分割算法在不同方面进行了尝试. 其中, 文献[1-2, 13-14]中的算法
在测试阶段用第 1 帧及其标注在线微调网络; 另外, 文献[2, 15-17]中的算法将视频分割任务
视为掩膜逐帧传播过程. 但是, 由于未充分考虑复杂场景的表观建模, 这些方法在一些复杂
场景下表现不佳. 为此, 一些算法试图通过增强目标与背景的特征表征力来提升表观模型的
判别力. 譬如, 文献[3]通过利用匹配(Matching)操作与排序注意力模块学习查询帧中的每个
像素与引导帧中所有像素之间的相似程度来构建鲁棒的表观模型; 文献[4]设计了两个新颖
的子网络调制器, 将视觉和空间信息通过网络调制构建表观模型, 并嵌入分割子网络进行学
习. 但是, 这些方法只利用单帧的特征学习表观建模, 未能充分捕获视频的时域上下文信息,
难以自适应复杂场景的变化. 针对该问题, 本文设计出一种在线多帧、多尺度高斯表观网络
模块, 通过在线学习目标与背景的特征分布来提升表观模型的判别力.
除此之外, 大量掩膜传播类算法
[2-3, 15-18]
将前一帧的预测结果作为当前帧的额外输入进
行处理. 这种结构可视为时间维度的循环结构. 但是, 鲜有算法在空间维度也构建循环结构,
而空间维循环可将高层特征反馈到低层, 从而充分利用前、后层特征信息学习更加鲁棒的
表观模型. 鉴于此, 本文通过引入这种反馈机制
[19-20]
设计出反馈多核融合模块, 用于引导学
习更加鲁棒的表观模型.
本文的主要贡献总结如下:
1) 提出一种在线多帧、多尺度高斯表观模型, 充分学习多尺度特征的统计信息, 增强
对目标与背景表观的判别力;
2) 将信息反馈的思想引入视频目标分割, 设计出一种反馈多核融合模块, 允许前层特
征捕捉后层的有用信息;
3) 本文算法与当前最先进的方法相比, 在多个标准数据集上达到领先水平, 证明了本
文算法的优越性.
1. 相关工作
1.1 基于在线微调的视频目标分割
一些视频目标分割算法严重依赖在线学习. 文献[1]及其扩展算法
[21]
预先训练一个语义
分割网络, 然后利用初始帧微调该网络, 使其关注分割目标; 文献[13]在文献[1]的基础上引
![](https://csdnimg.cn/release/download_crawler_static/87485993/bg2.jpg)
入了在线自适应机制以学习跨视频目标表观变化. 这类方法将视频简单地视为无关图片的
集合, 忽略了视频序列的时间相关性, 严重影响建模精度. 为此, 一些方法开始考虑采用简
单的时序信息建模, 通过传播上一帧掩膜来建模时序信息. 文献[2]利用了光流算法传播掩
膜, 首创了掩膜传播类视频目标分割方法; 文献[22]将 4 个不同功能的子网络组合为一体进
行微调, 获得 2018 DAVIS
[23]
挑战赛的冠军. 尽管在线微调能够大幅提升视频目标分割的精
度, 但是严重影响运行效率, 导致其难以应用于对实时性要求较高的实际任务之中.
1.2 基于离线学习的视频目标分割
为降低运算成本并达到精度与速度之间的平衡, 最近提出的一些视频目标分割算法抛
弃了在线微调过程, 转而只依赖于离线学习. 文献[16]提出了基于孪生网络的视频目标分割
模型, 其中, 子网络 1 对初始帧及其掩模标注进行编码, 子网络 2 对当前帧和上一帧预测结
果进行编码. 两者的输出结果再通过全局卷积(Global convolution)进行融合; 另外, 文献[18]
在时空域引入非局部(Non-local)注意力机制来充分利用视频中丰富的时序信息, 在多个标准
数据集上都表现出优异的性能.
1.3 基于表观建模的视频目标分割
表观建模对视频目标分割至关重要. 文献[24]设计了软匹配层来计算相似得分图; 文献
[25]同时进行全局匹配和局部匹配, 并结合了参考帧和上一帧的信息学习鲁棒的表观模型;
文献[3]则将掩膜传播与特征匹配结合, 优势互补, 性能表现出色;文献[15]和文献[26]分别设
计了专门的目标表观模型来自适应学习目标和背景区域之间的差异.
1.4 反馈机制
近年来, 反馈机制
[19-20]
在视觉任务中得到了广泛应用, 如图像超分
[27]
、显著目标检测
[28]
、人群计数
[29]
等. 文献[27]利用反馈结构, 以高层特征补充学习浅层表征, 取得不错效果;
文献[28]在解码器中应用多阶段反馈机制, 进一步纠正显著图估计偏差, 提升了显著性检测
的精度; 文献[29]设计了一种通用架构, 将自顶向下的信息以反馈的形式传递给自底向上的
网络进行特征学习, 在多个数据集上表现出优异性能.
2. 本文方法
如图 1 所示, 本文网络主要包含引导、查询与分割三个分支. 其中, 引导与查询分支为
在 ImageNet 数据集上预训练的 ResNet101 网络, 通过共享网络权重分别用于提取引导帧与
查询帧的深度特征. 深度卷积网络各层特征的特性不同: 低层富含纹理细节信息, 高层富含
语义信息, 而中层则介于两者之间. 本文将利用多层特征构建多尺度表观网络, 以充分利用
它们之间的互补优势.
![](https://csdnimg.cn/release/download_crawler_static/87485993/bg3.jpg)
图 1 网络结构图
Fig. 1 Network structure diagram
下载: 全尺寸图片 幻灯片
首先, 利用多层特征构建多尺度高斯表观模型, 并通过在线更新来捕获多帧信息. 通过
图 1 中的多尺度高斯表观特征提取模块生成目标和背景区域的概率密度分布图作为目标表
观特征 X~,X~, 其能够有效凸显目标而抑制背景干扰. 之后, 将引导帧的高斯表观特征
X~0X~0、引导帧真实标注 GT0GT0、查询帧的高斯表观特征 X~tX~t 和上一帧掩膜预测
Mt−1Mt−1 一同输入反馈多核融合模块, 该模块同时考虑时空双重反馈, 不仅沿时间维反馈
传播掩膜, 而且将后层特征反馈至前层以融合两者优势, 达到丰富自身信息容量与提升判别
力的效果. 最后, 融合后的多级特征通过一个简单的类似文献[30]所提出的 U 形网络
(UNet)结构的解码器网络, 输出最终分割预测结果 Mt.Mt.
本文的主要创新点在于所设计的多尺度高斯表观特征提取模块与反馈多核融合模块,
并将在后续内容中进行详细介绍.
2.1 多尺度高斯表观特征提取模块
鉴于视频的多帧、多尺度特征的统计信息在表观建模中的重要作用, 本文在低、中、
高三种特征尺度层面上, 通过设计混合高斯模型(Gaussian mixed model, GMM)在线学习多
帧的表观统计信息, 以获取各个位置的像素属于前景目标的概率, 来突出目标并抑制背景干
扰, 为后续模块精确预测提供有效支持.
剩余13页未读,继续阅读
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/3f07197aad004e4fa57ac5a008eb6aaf_weixin_57147647.jpg!1)
罗伯特之技术屋
- 粉丝: 3906
- 资源: 1万+
![benefits](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-1.c8e153b4.png)
下载权益
![privilege](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-2.ec46750a.png)
C知道特权
![article](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-3.fc5e5fb6.png)
VIP文章
![course-privilege](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-4.320a6894.png)
课程特权
![rights](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-icon.fe0226a8.png)
开通VIP
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)