深度学习的人-物体交互检测研究进展.docx_HOI人物交互生成资源-CSDN文库

版权申诉

文档资料

127 浏览量 2022-11-02 16:12:03 上传评论收藏 1.79MB DOCX 举报

资源详情

资源评论

随着信息技术的发展,计算机已经能够协助人们完成很多工作,帮助解决人

们无法解决的难题,甚至在某些领域已经可以取代人类。图像是人类获取信息

的主要形式,有 80%的信息都是以图像的形式获取的。常见的图像任务,如目标

检测、动作识别和图像分割等都属于计算机视觉任务的范畴。而近几年,这些

任务也随着深度学习在计算机视觉领域的深入应用得到了快速发展。在此基础

上针对个体对象更高层的图像语义研究,如人的动作识别、姿态估计等也取得

了较为明显的进步。但是仅凭这样的个体对象识别还远远不能理解图像中发生

的事情,还需要识别出不同对象之间的关系。由于人与物的交互占据了大多数

的人类活动,检测和识别每个人与周围物体的交互方式对于有效理解图像内容

十分重要,这个任务被称为人-物体交互检测

[1]

,主要目的是定位人体、物体,并识

别它们之间的交互关系。简单来说,就是检测图像中的<人体,动词,物体>三元组,

如图 1 所示。这样的输出能够帮助回答很多与图像相关的问题。它可以告诉更

多关于图像中描绘的场景的当前状态,帮助更好地预测未来,还能够反过来帮助

理解动作。人-物体交互检测（human-object interaction,HOI）技术已经被运

用在监控视频的自动识别检测中,识别检测出视频图像中的异常行为,做到及时

预警

[2]

。此外,该技术对于智能交通、信息检索以及人机交互

[3]

等诸多领域的研

究有重要帮助。

图 1

拥有广阔研究前景的同时,这个问题的研究也是具有挑战性的,因为图像中

可能包含多个执行相同交互的人,同一个人可能同时与多个物体交互,同一个物

体可能同时与多个人交互以及细粒度交互等。这些复杂多样的交互场景都会给

设计 HOI 检测解决方案带来相当大的难度。本文围绕着基于深度学习的人-物

体交互检测技术,主要对以下几点进行了综述：（1）人-物体交互检测任务的提

出;（2）人-物体交互检测关键方法类别和发展现状;（3）人-物体交互检测的

评价指标和常用数据集。

1 HOI 检测方法

从 2009 年开始,陆续出现了与 HOI 检测相关的研究,这些早期研究主要使

用了手工制作的局部特征,通过捕捉这些特征将其分到特定的类别中。这些基

于手工制作的特征主要是颜色、HOG

[4]

和 SIFT

[5]

。其中 Gupta 等人

[6,7]

研究使

用贝叶斯模型来进行 HOI 分类 ,Yao 等人

[8,9,10]

使用人和物体之间的上下文关

系,Delaitre 等人

[11]

使用具有空间交互和上下文的结构化表示,Desai 等人

[12]

使用

合成模型,Hu 等人

[13]

则是参考了一组 HOI 样本。但是在这些早期的 HOI 识别

研究中都没有在 HOI 检测中进行直接评估,其中文献[8,11,13]首先进行动作分

类,然后进行人与物关系的判断;文献[9]是目标检测之后进行评估;文献[12]是基

于人体姿势的结果进行评判。该技术真正快速发展是在 2015 年以后。

随着深度学习的发展,计算机视觉的性能得到了极大的提升,人们可以从规

模庞大的数据集中提取特征而不是局限于手工提取的特征,加之专门用于 HOI

检测的数据集的出现,HOI 检测任务迎来了新的发展阶段。2015 年,Gupta 和

Malik 提出了首个用于 HOI 检测的数据集

[14]

,并且提出了“视觉语义角色标注”这

一概念,对这一任务进行了明确的定义：推理图像中细粒度的动作并检测出与

该动作相关的语义角色（使用边界框标记出动作区域以及做出这个动作人与

物）。其首先真正解决了人-物体交互识别检测问题。

Chao 等人

[15]

于 2018 年提出的基于人-物体区域的卷积神经网络（human-

object region-based convo-lutional neural networks,HO-RCNN）对 HOI 检测

的研究具有十分重要的意义。它是一个多流网络结构,包含三个流：一个人流、

一个物体流以及一个成对流。其中人流和物体流分别编码人和物体的外观特征,

而成对流的目的则是编码人和物体之间的空间关系。值得一提的是它没有直接

Georgia 等人

[23]

于 2018 年提出了一个以人为中心的模型 InteractNet 来识

别人与物的交互,通过扩展 Faster R-CNN 模型,增加了一个分支,对目标对象位

置上的动作和特定动作的概率密度估计进行分类。Kolesnikov 等人

[24]

提出了一

种用于检测视觉关系的联合概率模型 BAR-CNN（box attention R-CNN）,使

用链式规则将概率模型分解成两个更简单的模型：第一检测模型定位输入图像

中的所有目标;对于每个检测到的目标,第二个模型检测与该目标交互的所有其

他对象。该模型的核心是框注意机制,该机制增强了第二个模型的能力,使其能

够专注于第一个检测模型定位的对象。具体来说,就是将第一个模型检测到的

对象表示其空间位置的二进制编码,这些编码作为第二检测模型的附加输入。

该方法没有引入新的超参,并且在数据集上取得了不错的效果。

与 BAR-CNN 通过单独分析人和物体而不考虑两者之间关系的思路不

同,Gao 等人

[25]

认为除了需要人、物的外观特征以及人-物体对的空间特征以外,

还需要上下文信息来识别 HOI。因此,在 HO-RCNN 的基础上,他们提出的用于

人机交互检测的以实例为中心的注意网络（instance-centric attention network

for human-object interaction detection,ICAN）采用以实例为中心的注意力模

块来提取与局部区域（人/物框）的外观特征互补的上下文特征,以提高 HOI 检

测效果,而不是像 HO-RCNN 那样只是简单地用 DNN 来提取特征,ICAN 模块如

图 3 所示。与之前手动设计的上下文特征的方法（基于姿势

[26]

、整个图像

[27]

或

次要区域

[28]

的交互检测方法）不同,ICAN 的注意力图是自动学习的,并与网络的

其余部分联合训练,以提高性能。此外 ,与为图像级分类设计的注意力模块相

比,ICAN 的以实例为中心的注意力图提供了更大的灵活性,因为它允许根据不

同的对象实例关注图像中的不同区域。

图 3

图 3 ICAN 模块

Fig.3 ICAN module

剩余21页未读，继续阅读

评论收藏

内容反馈

版权申诉

深度学习的人-物体交互检测研究进展.docx

评论0

最新资源

深度学习的人-物体交互检测研究进展.docx

评论0

最新资源

相关推荐

百度 2014校园招聘笔试试题--深度学习算法研发工程师.docx

百度校园招聘笔试试题-深度学习算法研发工程师.docx

计算机专业研究生复试-机器学习面试简答题.docx

(025200)专业学位研究生培养方案---上海师范大学数理学院.docx

单片机课程设计--超声波液位检测仪.docx

深度学习-AI革命及其前沿进展.docx

安全管理信息化平台开发的前期研究-以怀化烟草为例.docx

初中物理初中物理热量和内能的利用阶梯训练----检测题.docx.pdf

边缘检测与Hough变换实验报告----Matlab.docx

激光惯性约束聚变X射线诊断用多通道Kirkpatrick-Baez成像系统研究进展.docx

诊疗器械器具-物体表面消毒记录本.docx

设计模式学习笔记--Flyweight享元模式.docx

软件项目交付过程中涉及的各类申请表、计划、说明说等文档

基于长短记忆与信息注意的视频-脑电交互协同情感识别.docx

关于网络游戏对中学生的影响--研究性学习课题报告.docx

初中物理初中物理压强阶梯训练---整合检测.docx.pdf

施工现场材料检测监督平台--软件开发方案.docx

初中物理初中物理热现象阶梯训练---整合检测.docx.pdf

初中物理初中物理热现象阶梯训练----温度温度计检测.docx.pdf

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

matlab批量读取excel表格数据并处理画图

导入证书可以解决”无法建立到信任根颁发机构的证书链"问题。

OpenCv车辆识别训练模型

代码随想录知识星球精华-大厂面试八股文第二版v1.2.pdf

数学建模对乙醇偶合制备C4烯烃的问题研究

Vue-Element UI集成ECharts实现数据统计分析页代码部分(如果帮助到你，感谢关注点赞)

STM32F103C8T6中文数据手册

（头歌）计算机组成原理存储系统设计（HUST）1-7关答案