拥有广阔研究前景的同时,这个问题的研究也是具有挑战性的,因为图像中
可能包含多个执行相同交互的人,同一个人可能同时与多个物体交互,同一个物
体可能同时与多个人交互以及细粒度交互等。这些复杂多样的交互场景都会给
设计 HOI 检测解决方案带来相当大的难度。本文围绕着基于深度学习的人-物
体交互检测技术,主要对以下几点进行了综述:(1)人-物体交互检测任务的提
出;(2)人-物体交互检测关键方法类别和发展现状;(3)人-物体交互检测的
评价指标和常用数据集。
1 HOI 检 测方法
从 2009 年开始,陆续出现了与 HOI 检测相关的研究,这些早期研究主要使
用了手工制作的局部特征,通过捕捉这些特征将其分到特定的类别中。这些基
于手工制作的特征主要是颜色、HOG
[4]
和 SIFT
[5]
。其中 Gupta 等人
[6,7]
研究使
用 贝 叶 斯 模 型来 进 行 HOI 分 类 ,Yao 等 人
[8,9,10]
使 用 人 和 物 体之 间 的 上 下 文 关
系,Delaitre 等人
[11]
使用具有空间交互和上下文的结构化表示,Desai 等人
[12]
使用
合成模型,Hu 等人
[13]
则是参考了一组 HOI 样本。但是在这些早期的 HOI 识别
研究中都没有在 HOI 检测中进行直接评估,其中文献[8,11,13]首先进行动作分
类,然后进行人与物关系的判断;文献[9]是目标检测之后进行评估;文献[12]是基
于人体姿势的结果进行评判。该技术真正快速发展是在 2015 年以后。
随着深度学习的发展,计算机视觉的性能得到了极大的提升,人们可以从规
模庞大的数据集中提取特征而不是局限于手工提取的特征,加之专门用于 HOI
检测的数据集的出现,HOI 检测任务迎来了新的发展阶段。2015 年,Gupta 和
Malik 提出了首个用于 HOI 检测的数据集
[14]
,并且提出了“视觉语义角色标注”这
一概念,对这一任务进行了明确的定义:推理图像中细粒度的动作并检测出与
该动作相关的语义角色(使用边界框标记出动作区域以及做出这个动作人与
物)。其首先真正解决了人-物体交互识别检测问题。
Chao 等人
[15]
于 2018 年提出的基于人-物体区域的卷积神经网络(human-
object region-based convo-lutional neural networks,HO-RCNN)对 HOI 检测
的研究具有十分重要的意义。它是一个多流网络结构,包含三个流:一个人流、
一个物体流以及一个成对流。其中人流和物体流分别编码人和物体的外观特征,
而成对流的目的则是编码人和物体之间的空间关系。值得一提的是它没有直接
评论0
最新资源