率感知两个方面进行对比学习,分别将同一视频的不同采样速率和不同视频的
相同采样速率分别作为两种对比学习的正例来学习视频表征。YAO 等
[13]
提出
了视频回放速率感知方法,基于自监督学习的视频表征模型由特征编码器、分
类模块和重构解码器构成。辨别感知模型遵循特征编码器,通过对快进速率进
行分类来感知低时间分辨率和全局表征。生成感知模型作为一个特征解码器,
通过引入运动注意机制来集中理解高时间分辨率和局部表征。BAI 等
[17]
利用旋
转抖动、反向、乱序、多采样速率作为时序增强方法进行对比学习,即同一视
频的不同时序增强的剪辑作为正例,不同视频剪辑作为负例。同时还利用这些
增强方法对应的辅助任务即旋转角度预测、顺序验证与识别和采样速率识别进
行表征学习。
2 基 于时 空信息的视频自监督学习
视频在空间上也具有连续性,可以同时利用视频的时间和空间信息进行自
监督学习,辅助任务可以设计为视频预测等。视频预测是指给出一段连续视频
帧,构造模型来预测视频中未来 帧或缺失 的帧,然后与真实视频进 行比较,以此
实现自监督学习
[18]
并且得到视频的时空特征。根据视频帧的生成机理不同,可
分为基于对抗生成的视频预测、基于编解码的视频预测。此外,一些学者使用
视频时空信息的对比学习来获得视频表征。
2.1 基 于对抗生成的视 频预测
生 成 对 抗 网 络 (Generative Adversarial Network,GAN) 模 型 最 早 由
GOODFELLOW 等
[19]
在 2014 年提出。生成对抗网络包含两个模块:生成模型
(Generative model,G)和判别模型(Discriminative model,D)。生成模型输入一
组噪声来产生图像,刻画数据的分布情况;判别模型判断生成图像的真假,通过两
个模块之间的博弈不断更新,产生更好的输出。鉴于生成对抗网络在图像生成
中取得的突破性进展,其被有效地应用于视频预测表征学习中,通过生成器生成
预测帧并与真实的视频帧比较进行自监督学习,通过鉴别器来鉴别生成的帧是
否真实。
TULYAKOV 等
[20]
认为视频中的视觉信号可以分为内容和动作,因此提出了
解耦运动和内容的生成对抗网络视频生成框架。每个视频帧由一个随机向量生
成,该向量包含内容和运动两部分信息。内容子空间用高斯分布建模,而运动子
空间用递归神经网络建模。用生成对抗网络学习分解视频内容和运动表征。
评论0
最新资源