自监督视频表征学习综述.docx_无监督表征资源-CSDN文库

版权申诉

39 浏览量 2022-11-28 20:24:53 上传评论收藏 233KB DOCX 举报

资源详情

资源评论

随着信息技术的飞速发展和互联网技术的普及,社会正在进入大数据时代。

文本、图像、视频等多媒体信息数据量呈爆炸性增长,每天以亿级别的数据被

传播到网络中。巨大的数据量和多样复杂的数据结构,给数据的分析和理解带

来了挑战和机遇。

随着深度学习的蓬勃发展,监督学习已经成功应用在各种计算机视觉任务

中,在一些领域上甚至超越人类。监督学习不仅依赖于大量的手工标注,还存在

泛化错误、虚假关联、对抗性攻击

[1]

等问题。近年来,对未标记数据的自监督表

示学习受到越来越多的学者关注,图灵奖得主 YANN 在 AAAI 演讲

[2]

中提到“通

向人工智能的未来:自监督学习”。自监督学习(Self-Supervised Learning,SSL)

利用辅助任务(Pretext Task)从大规模无监督数据中挖掘自身的监督信息,利用

这个信息对网络进行训练,从而学习到对下游任务有价值的表征

[3]

。自监督视频

表征学习涉及机器学习和计算机视觉学科的交叉和融合,具有重要的理论研究

价值。自监督视频表征学习的研究有助于机器利用未标注大规模视频数据高效

准确地理解和分析视频,从而得到更具有泛化性的视频表征,使模型在动作识别、

分割、跟踪

[4]

和目标识别

[5]

等下游任务中有更好的性能。视频自监督学习框架

如图 1 所示

[6]

。

图 1

图 1 视频自监督学习框架

JING 等

[6]

综述了基于深度神经网络的自监督视觉特征学习,笔者与其侧重

点、覆盖时间范围、分类方式均有不同,是对近 3 年来自监督视频表征学习方

法进行更全面的归类和总结介绍。相比于图像,视频存在丰富的时序信息,可用

来设计辅助任务,如时间顺序验证、时间顺序识别和采样速率识别等。与图像

相似,在视频中也存在空间连续性,因此与图像旋转、拼图任务相似的视频帧旋

转任务

[7]

、时空立方体拼图

[8]

等辅助任务也可用于视频表征学习。基于视频帧

预测的方法则同时利用视频的时空信息来设计视频表征的辅助任务,视频着色

任务利用视频的时空一致性来设计辅助任务。此外,视频中存在着多模态信息,

如文本、音频、光流信息等。基于多模态信息的视频表征学习也是一个热门的

研究方向。

1 基于时序信息的视频自监督学习

视频具有时间连续性,可以作为自监督学习的监督信号。基于时序信息的

视频表征自监督学习辅助任务,包括时间顺序验证

[9,10]

、时间顺序识别

[11,12]

和视

频帧采样速率识别

[13,14,15,16,17]

等。

1.1 视频时间顺序验证与识别

视频时间顺序验证从无标签的视频中学习一个良好的时空表征

[9]

,验证给

定的帧序列是否处于视频中正确的时间顺序。MISRA 等

[9]

根据光流大小测量帧

间的运动情况,并从具有明显运动的时间窗口中采样 3 帧的元组作为正例,将打

乱顺序的 3 帧的元组作为负例,最后将其输入训练网络判断其顺序是否正确。

时间顺序识别是将打乱顺序的帧输入网络,输出帧序列的正确顺序。XU 等

[11]

提出利用视频时间顺序的自监督时空学习技术,首先从视频中抽取几个固定

长度的片段并随机混洗,然后用三维神经网络提取这些片段的特征,最后用一个

简单的神经网络预测混洗片段的实际顺序。LIU 等

[12]

为了充分挖掘视频表征的

时间多样性和全局-局部时序特征,提出一种新的自监督学习方法——时间对比

图,将时间顺序识别作为辅助任务,并设计特定的对比损失来增强其对时间表征

学习的区分能力。

1.2 视频采样速率识别

根据人类视觉系统对运动节奏的敏感性,视频采样速率识别辅助任务主要

靠识别视频的不同采样速率来进行自监督学习,同时学习视频的全局表征和重

要帧的局部表征。

WANG 等

[15]

提出了基于采样频率预测的自监督学习视频表征学习方法。具

体来说,给定以自然节奏播放的视频,根据不同的时间采样率可生成具有不同节

奏的视频剪辑。然后训练一个可学习的模型来识别输入视频剪辑对应的采样速

率。为了进一步加强采样速率预测任务和规范学习过程,从内容感知和采样速

率感知两个方面进行对比学习,分别将同一视频的不同采样速率和不同视频的

相同采样速率分别作为两种对比学习的正例来学习视频表征。YAO 等

[13]

提出

了视频回放速率感知方法,基于自监督学习的视频表征模型由特征编码器、分

类模块和重构解码器构成。辨别感知模型遵循特征编码器,通过对快进速率进

行分类来感知低时间分辨率和全局表征。生成感知模型作为一个特征解码器,

通过引入运动注意机制来集中理解高时间分辨率和局部表征。BAI 等

[17]

利用旋

转抖动、反向、乱序、多采样速率作为时序增强方法进行对比学习,即同一视

频的不同时序增强的剪辑作为正例,不同视频剪辑作为负例。同时还利用这些

增强方法对应的辅助任务即旋转角度预测、顺序验证与识别和采样速率识别进

行表征学习。

2 基于时空信息的视频自监督学习

视频在空间上也具有连续性,可以同时利用视频的时间和空间信息进行自

监督学习,辅助任务可以设计为视频预测等。视频预测是指给出一段连续视频

帧,构造模型来预测视频中未来帧或缺失的帧,然后与真实视频进行比较,以此

实现自监督学习

[18]

并且得到视频的时空特征。根据视频帧的生成机理不同,可

分为基于对抗生成的视频预测、基于编解码的视频预测。此外,一些学者使用

视频时空信息的对比学习来获得视频表征。

2.1 基于对抗生成的视频预测

生成对抗网络 (Generative Adversarial Network,GAN) 模型最早由

GOODFELLOW 等

[19]

在 2014 年提出。生成对抗网络包含两个模块:生成模型

(Generative model,G)和判别模型(Discriminative model,D)。生成模型输入一

组噪声来产生图像,刻画数据的分布情况;判别模型判断生成图像的真假,通过两

个模块之间的博弈不断更新,产生更好的输出。鉴于生成对抗网络在图像生成

中取得的突破性进展,其被有效地应用于视频预测表征学习中,通过生成器生成

预测帧并与真实的视频帧比较进行自监督学习,通过鉴别器来鉴别生成的帧是

否真实。

TULYAKOV 等

[20]

认为视频中的视觉信号可以分为内容和动作,因此提出了

解耦运动和内容的生成对抗网络视频生成框架。每个视频帧由一个随机向量生

成,该向量包含内容和运动两部分信息。内容子空间用高斯分布建模,而运动子

空间用递归神经网络建模。用生成对抗网络学习分解视频内容和运动表征。

剩余10页未读，继续阅读

评论收藏

内容反馈

版权申诉

自监督视频表征学习综述.docx

评论0

最新资源

自监督视频表征学习综述.docx

评论0

最新资源

相关推荐

监督学习.docx

有监督学习方法.docx

解耦表征学习综述.docx

机器学习综述.docx

人工智能论文：基于深度学习的目标检测技术综述.docx

基于单片机的温湿度检测报警系统文献综述.docx

《深度半监督学习》综述论文

半监督学习研究综述 半监督

直线二级倒立摆的建模和控制综述.docx

基于web的毕业设计管理系统的文献综述.docx

(完整word版)示波器文献综述.docx

大学生互联网信息需求与信息行为研究综述.docx

图嵌入模型综述.docx图嵌入模型综述.docx图嵌入模型综述.docx

综述视频无监督域自适应（VUDA）的小综述

ChatGPT技术的无监督学习与半监督学习方法研究.docx

基于单片机的智能小车设计(红外避障)综述.docx

基于AT89C51单片机倒车防撞报警系统设计文献综述.docx

基于 WEB的毕业设计管理系统设计与实现文献综述.docx

基于模糊推理的智能投喂控制技术研究”文献综述.docx

《图书销售管理系统的设计与实现》文献综述.docx

半监督学习研究综述半监督