【免费】Ji_Learning_Temporal_Action_Proposals_With_Fewer_Labels_ICCV

网络

计算机视觉

需积分: 0 149 浏览量 2022-08-08 17:49:52 上传评论收藏 1.56MB DOCX 举报

资源详情

资源评论

资源推荐

使用较少的标签学习临时行动建议(Temporal Action Proposals)

摘要

时间行动建议是当今行动检测管道中的一个常见模块。大多数当前训练动作提议模块

的方法都依赖于完全监督的方法，这些方法需要在长视频序列中使用大量带注释的时间动

作间隔。这需要大量的注释成本和努力促使我们研究在较少监督的情况下训练提案模块的

问题。在这项工作中，我们提出了一种专门为训练时间动作提议网络而设计的半监督学习

算法。当只有少量标签可用时，我们的半监督方法比完全监督的对应物和其他强大的半监

督基线生成的提议要好得多。我们在两个具有挑战性的动作检测视频数据集 ActivityNet

v1.3 和 THUMOS14 上验证了我们的方法。我们表明，我们的半监督方法始终匹配或优于

完全监督的最先进方法。

1 介绍

Figure1：我们的半监督框架只有部分训练视频标有基本事实建议，可以生成比最先进

的全监督方法质量更好的时间动作建议

世界上有数以百万计的摄像机，每天都会产生和传输大量的视频。这些视频中的一个非

常重要的主题是人类的活动和行为。这促使计算机视觉界研究从视频采集中理解动作的算法。

动作理解的一项重要任务是动作检测，即时间动作定位，其目标是在长视频序列中暂时定位

所有感兴趣的动作。解决这个问题的一种常见方法是首先生成时间动作建议，以定位感兴趣

的时间间隔，然后将其输入分类器以获得相应的动作标签。在本文中，我们主要关注时间动

作提议模块。

为了达到较高的预测精度，大多数现有的最先进的时间动作建议算法都使用有监督的深

度学习方法[3,14,15,23]。这种方法需要大量有标签的视频。与图像识别等其他视觉任务中

的标记不同，在未剪辑的视频中标记动作的时间边界要耗时得多。另一方面是无监督学习方

法[34]，培训不需要标签。虽然它们没有标签的负担，但在许多任务中的总体性能通常不可

避免地低于监督方法。

当有大量数据可用但只有一小部分被标记时，半监督学习是一种非常适合的解决方案。

与无监督学习不同，半监督学习仍然利用标记数据作为高预测精度的强监督。与监督学习相

比，半监督学习可以利用未标记的数据，因此不太可能在小的标记数据集上过度拟合。半监

督学习在图像分类中是有效的[21,25,29,36]，但从未被探索用于帮助生成临时行动建议。

在我们的问题设置（见图 1）中，我们假设在训练期间，只有一部分视频带有用于监督学习

的动作的时间边界标签。与此同时，培训过程中还可以利用其他没有标签或注释的视频。通

过将从标记集提取的知识扩展到未标记集，我们可以获得一个更健壮的模型，因为未标记数

据可以发挥正则化作用。

半监督学习方法背后的一个核心理念是训练模型，使其具有平滑一致的分类边界，对随

机扰动具有鲁棒性。为了找到一个平滑的数据流形，Tarvainen 等人[36]提出了 Mean-

Teacher，将不同训练迭代中的“学生”模型平均化为“教师”模型。我们在模型设计中采

用了这种架构。为了提高模型的鲁棒性，在学生模型的输入上引入随机扰动至关重要。特别

是对于视频中的时间动作建议任务，扰动的设计应该有利于序列学习。然而，之前的工作并

没有对视频等序列数据提出适当的扰动。

我们提出了两种类型的连续扰动：时间扭曲和时间掩蔽。时间扭曲是一种重采样层，它

沿时间维度扭曲视频序列，为时间敏感任务（如时间动作建议）提供扰动。时间屏蔽随机屏

蔽输入视频的某些帧。在培训期间，蒙面学生模型只看到部分视频，而他们被鼓励预测与无

障碍教师模型预测相同的边界。这些连续的扰动使我们的优化模型更加稳健，并能更好地推

广到看不见的数据。

我们的主要贡献如下：（1）据我们所知，我们是第一个将半监督学习纳入时间行动方案

以实现标签效率的人。（2）我们为这个半监督框架设计了两种基本类型的顺序扰动，并在

时间动作建议的关键实验中根据强半监督基线对它们进行了验证

2 相关工作

时间行为检测和建议。给定一段长且未经剪辑的视频，时间动作检测旨在定位每个动作

实例及其开始和结束时间以及动作类[4、12、14、16、22、33、40]。

传统上，许多方法通过以滑动窗口方式彻底应用动作分类器来解决这个问题[13、19、

26、27、37、39]。这些方法在计算成本方面通常效率低下，因为它们需要覆盖整个未剪辑

视频中每个位置不同长度的时间窗口。

受最近图像目标检测的 proposal plus 分类方法的成功启发，另一组两阶段方法首先在

视频中提出动作无关的时间段，然后对修剪片段的动作进行分类。Buch 等人[3]提出了一种

执行单流时间动作建议生成的网络，避免了滑动窗口带来的计算成本。Shou 等人[32]使用 3D

ConvNet 生成临时提案。还有一些端到端的框架，可以实现提案生成和行动分类的联合优化。

Buch 等人。[2] 为端到端时间动作定位课程培训引入语义约束。Chao 等人[8]采用更快的 R-

CNN[30]进行动作定位任务。

在上述方法中生成的建议通常依赖于预定义的锚，缺乏时间界限的灵活性和准确性。相

反，Zhao 等人[41]将提案生成问题简化为对每个短视频片段的活动性进行分类，并通过分

水岭算法进行后处理。Gao 等人[15]和边界敏感网络（BSN）[23]进一步推断视频片段是获

取更精确边界的行动的开始还是结束，其中 BSN 已成为 ActivityNet Challenge[5]上临时

行动建议任务的最新技术。

之前的研究致力于开发更好的行动建议模型，并通过标记视频进行训练。同时，我们探

索如何利用未标记的视频进一步提高提议和检测性能。在这项工作中，由于 BSN 的优越性能，

我们将重点评估我们的半监督框架，尽管我们的框架的灵活性也允许它与其他时间动作建议

架构相结合。

半监督深度学习。半监督学习有着跨越数十年的丰富历史[9,42]。我们的重点不是全面

的回顾，而是半监督的深度学习。一种常见的方法是通过联合优化标记数据的监督分类损失

和标记和未标记数据的额外无监督损失来训练神经网络[21,25,29,36]。

一致性正则化被广泛应用于无监督损失，它鼓励模型在原始输入或中间特征映射受到扰

动时生成一致的输出。

这里我们总结了一些使用一致性正则化的半监督深度学习的例子。梯形网络[29]将重建

分支合并为无监督任务；在每一个训练步骤中，它们都会在编码和解码的激活图之间造成一

致性损失。模型[21]简化了梯形网络，只会在数据受到不同扰动的输出之间造成一致性损失。

接下来，时间加密[21]将一致性损失应用于模型输出和更稳定的目标：每个历元模型输出的

指数移动平均值。与平均输出不同，更强大的平均教师[36]将每个训练步骤（又称“学生”

模型）的模型权重平均化为一个单独的“教师”模型，其输出作为一致性损失的目标。与上

述方法正交，虚拟对抗训练（VAT）[25]提出使用虚拟对抗噪声代替随机噪声作为数据扰动。

在我们的工作中，我们还对学生和教师模型的输出进行了一致性正则化，并提出了时间扭曲

和时间掩蔽作为视频数据的数据扰动。

Figure2：我们的方法概述。给定一个未经剪辑的视频作为输入，我们首先将其编码为一个

特征序列

𝜱

。接下来，对

𝜱

应用包括时间扭曲和时间掩蔽在内的序列扰动，学生提案模型将

该扰动序列作为输入。相反，教师模型直接预测无障碍

𝜱

。最后，对学生模型进行了联合优

化，对标记的视频应用监督损失，对所有视频应用一致性损失

半监督学习也被应用到序列学习中。Dai 等人[11]提出了一种用于文本分类的序列自动

编码器。Pr’emont Schwarz 等人[28]将梯形网络与递归神经网络相结合，并在被遮挡的移

动 MNIST 数据集上评估其图像分类模型。Clark 等人[10]提出了针对多种语言任务的交叉视

角训练。Miyato 等人[24]将 VAT[25]应用于文本分类。虽然不是为视频分析而设计的，但上

面的一些方法[10,28]也包含了在图像中的补丁或句子中的单词上进行掩蔽的想法，它们启

发了我们的时间掩蔽。

也有关于弱监督学习的工作，用于时间动作检测[1,7,17,31]，这与我们的半监督设置

不同。在弱监督的时间动作检测中，部分训练数据被完全标记为时间边界和动作类，而其余

数据则被标记为“弱”标签，即视频级别的类或视频中动作的顺序列表。相反，我们不假设

在我们的半监督培训中使用的未标记视频有任何类型的标签，这需要一个更难但更有效的标

签任务。

3 技术方法(Technical Approach)

我们的主要目标是用相对较少的标签生成高质量的临时行动建议。这就要求我们通过一

个强大的有监督的提议模型来最好地利用标记的数据，同时，通过一个设计用于视频理解的

无监督辅助任务来利用未标记的数据。虽然我们的方法对特定的提案方法不可知，但为了验

证半监督框架，我们在最先进的完全监督提案生成网络——边界敏感网络——的基础上构建

了我们的模型[23]。我们用两种类型的顺序扰动扩展了平均教师框架[36]，用于训练提议模

型：时间扭曲和时间掩蔽。请参见图 2，作为我们方法的概述。

3.1 视频编码

视频编码的目的是获得压缩视频表示，它捕获视频的外观和运动模式。给定一个以 N

帧为输入的未剪辑视频，我们首先将其分成不重叠的短片段，每个片段包含

𝛿

帧，形成一

系列片段

𝑆

{

𝑋

,…,

𝑋

𝑇

}

，其中

𝑇

𝑁

𝛿

。如之前的工作[6,38]所示，外观和运动特征都

有助于理解动作，因此我们对 RGB 帧和每个视频的光流进行编码，然后将编码的向量连接

起来。特别是，我们使用[38]作为视频编码器

𝜙

，就像在完全监督的基线[23]中一样。编

码器生成一系列特征向量

{

𝜙

(

𝑋

)

𝜙

(

𝑋

)

,…,

𝜙

(

𝑋

𝑇

)

}

∈

ℝ

𝑇

𝐷

.。然后我们将特征向量序列

以小批量的形式输入以下模块。标记和未标记的视频共享同一个视频编码器

𝜙

，并且它们

在同一个小批量中共存。

3.2 临时行动建议模型

剩余16页未读，继续阅读

评论收藏

内容反馈

优游的鱼

粉丝: 71
资源: 316

Ji_Learning_Temporal_Action_Proposals_With_Fewer_Labels_ICCV_201

评论0

最新资源