世界上有数以百万计的摄像机,每天都会产生和传输大量的视频。这些视频中的一个非
常重要的主题是人类的活动和行为。这促使计算机视觉界研究从视频采集中理解动作的算法。
动作理解的一项重要任务是动作检测,即时间动作定位,其目标是在长视频序列中暂时定位
所有感兴趣的动作。解决这个问题的一种常见方法是首先生成时间动作建议,以定位感兴趣
的时间间隔,然后将其输入分类器以获得相应的动作标签。在本文中,我们主要关注时间动
作提议模块。
为了达到较高的预测精度,大多数现有的最先进的时间动作建议算法都使用有监督的深
度学习方法[3,14,15,23]。这种方法需要大量有标签的视频。与图像识别等其他视觉任务中
的标记不同,在未剪辑的视频中标记动作的时间边界要耗时得多。另一方面是无监督学习方
法[34],培训不需要标签。虽然它们没有标签的负担,但在许多任务中的总体性能通常不可
避免地低于监督方法。
当有大量数据可用但只有一小部分被标记时,半监督学习是一种非常适合的解决方案。
与无监督学习不同,半监督学习仍然利用标记数据作为高预测精度的强监督。与监督学习相
比,半监督学习可以利用未标记的数据,因此不太可能在小的标记数据集上过度拟合。半监
督学习在图像分类中是有效的[21,25,29,36],但从未被探索用于帮助生成临时行动建议。
在我们的问题设置(见图 1)中,我们假设在训练期间,只有一部分视频带有用于监督学习
的动作的时间边界标签。与此同时,培训过程中还可以利用其他没有标签或注释的视频。通
过将从标记集提取的知识扩展到未标记集,我们可以获得一个更健壮的模型,因为未标记数
据可以发挥正则化作用。
半监督学习方法背后的一个核心理念是训练模型,使其具有平滑一致的分类边界,对随
机扰动具有鲁棒性。为了找到一个平滑的数据流形,Tarvainen 等人[36]提出了 Mean-
Teacher,将不同训练迭代中的“学生”模型平均化为“教师”模型。我们在模型设计中采
用了这种架构。为了提高模型的鲁棒性,在学生模型的输入上引入随机扰动至关重要。特别
是对于视频中的时间动作建议任务,扰动的设计应该有利于序列学习。然而,之前的工作并
没有对视频等序列数据提出适当的扰动。
我们提出了两种类型的连续扰动:时间扭曲和时间掩蔽。时间扭曲是一种重采样层,它
沿时间维度扭曲视频序列,为时间敏感任务(如时间动作建议)提供扰动。时间屏蔽随机屏
蔽输入视频的某些帧。在培训期间,蒙面学生模型只看到部分视频,而他们被鼓励预测与无
障碍教师模型预测相同的边界。这些连续的扰动使我们的优化模型更加稳健,并能更好地推
广到看不见的数据。
我们的主要贡献如下:(1)据我们所知,我们是第一个将半监督学习纳入时间行动方案
以实现标签效率的人。(2) 我们为这个半监督框架设计了两种基本类型的顺序扰动,并在
时间动作建议的关键实验中根据强半监督基线对它们进行了验证
2 相关工作
时间行为检测和建议。给定一段长且未经剪辑的视频,时间动作检测旨在定位每个动作
实例及其开始和结束时间以及动作类[4、12、14、16、22、33、40]。
传统上,许多方法通过以滑动窗口方式彻底应用动作分类器来解决这个问题[13、19、
26、27、37、39]。这些方法在计算成本方面通常效率低下,因为它们需要覆盖整个未剪辑
视频中每个位置不同长度的时间窗口。
评论0