抽象场景图00387.docx资源-CSDN文库

论文阅读

需积分: 19 135 浏览量 2020-06-09 17:32:30 上传评论收藏 902KB DOCX 举报

资源推荐

资源详情

资源评论

Say As You Wish: Fine-grained Control of Image

Caption Generation with Abstract Scene Graphs

用抽象场景图精细控制图片标题生成

论文链接：https://arxiv.org/abs/2003.00387

代码链接：https://github.com/cshizhe/asg2cap

https://zhuanlan.zhihu.com/p/121064309

作者：Shizhe Chen1∗ , Qin Jin1† , Peng Wang2 , Qi Wu 2020

概述：

现有模型可以生成较为流利和视觉相关的图像描述，但却存在着与用户交互性差、多样性

低等问题。一方面，大多数图像描述模型仅被动地生成句子，并不考虑用户感兴趣的内容

或者期望描述的详细程度。被动生成模式容易造成句子缺乏多样性，倾向于使用常见的高

频表达生成较为“安全”的句子，较为简单空洞，且缺乏关键性的、用户所需的细节信息。

少数工作提出了主动控制图像描述生成，主要可以分为风格控制和内容控制两类。但是，

现有工作都仅提供非常粗粒度的控制信号，例如一个类别标签或者图像区域。这些控制信

号无法在更细粒度的级别上控制图像描述的生成，例如，是否需要生成物体的属性，要生

成多少属性标签；是否需要描述与目标物体相关的物体，以及物体之间的关系是什么；句

子的描述顺序应该如何等等。因此，我们提出了一种更加细粒度的控制信号，称为抽象场

景图(Abstract Scene Graph, ASG)，如图 1 所示，使得可以通过 ASG 方便地控制

用户所希望表达的物体、属性和关系等。ASG 不仅能反映用户细粒度的描述意图，也能帮

助生成更具有多样性的图像描述。

我们进一步提出 ASG2Caption 模型更好地基于指定 ASG 生成图像描述。ASG2Caption

模型由角色感知图编码器和基于图的语言解码器构成，能够自动识别 ASG 中的抽象节点，

并根据图中指定的语义内容和描述顺序生成所需的图像描述。

创新点：ASG，能够考虑用户意图。

模型：

方法：

结果：

翻译：

摘要

人类能够用粗到细的细节来描述图像内容。然而，大多数的字幕模型都是意向

不可知的，不能根据不同的用户意向主动生成不同的描述。在这项工作中，我们提

出了抽象场景图（ASG）结构，以细粒度的方式来表示用户的意图，并控制生成的

描述应该是什么和如何详细。ASG 是一个有向图，由基于图像的三类抽象节点（对

象、属性、关系）组成，没有任何具体的语义标签。因此，无论是手动获取还是自

动获取都很容易。在 ASG 的基础上，我们提出了一种新的 asg2 描述模型，该模型

能够识别用户意图和图中的语义，从而根据图的结构生成所需的标题。与

VisualGenome 和 MSCOCO 数据集上精心设计的基线相比，我们的模型在 asg 上

实现了更好的可控性条件。它还通过自动采样不同的 asg 作为控制信号，显著提高

了字幕的多样性。

1 引言

图像字幕是一个复杂的问题，它要求机器同时完成目标识别、场景分类、属性和关系

检测等多项计算机视觉任务，并将其归纳为一个句子。由于深度学习的快速发展

[14，15]，最近的图像字幕模型[3，34，43]已经取得了实质性进展，甚至在一些基于准

确性的评估指标方面超过了人类[5，30，39]。

然而，大多数图像字幕模型是意向性的，只是被动地生成图像描述，而不关心用户感

兴趣的内容和描述的详细程度。相反，我们人类能够随心所欲地从粗到细地描述图像内容

例如，我们可以在图 1 中描述花的更具识别性的细节（如数量和颜色），但目前的系统完

全没有实现这样的用户意图。更糟糕的是，这种被动的标题生成会极大地阻碍多样性，并

倾向于生成平庸的描述[37，41]。尽管这些描述具有很高的准确性，但它们主要捕获频繁

的描述模式，不能代表整体的图像理解，而整体的图像理解应该能够识别图像中的不同方

面，从而能够产生更为多样的描述。

为了解决上述限制，以前很少有人提议积极控制图像字幕过程。一类作品[10,13,27]

侧重于控制事实、浪漫、幽默等形象描写的表现风格，另一类作品则侧重于控制不同的形

象区域[17]、对象[7,50]和词性标签[9]等描写内容，使模型能够描述用户感兴趣的图像内

容。然而，上述工作只能处理一个粗粒度的控制信号，如一个热标签或一组图像区域，难

以在细粒度上实现用户期望的控制，例如以不同的细节层次描述各种对象及其关系。

图 1：尽管意图不可知的标题可以正确地描述图像内容，但它们无法实现用户想要描

述的内容，而且缺乏多样性。因此，我们提出了抽象场景图（ASG）来控制用户想要的和

不同的图像字幕的生成。相应的区域、ASG 节点和生成的短语被标记为相同的颜色。

在这项工作中，我们提出了一种更细粒度的控制信号，即抽象场景图（ ASG），以表

示可控图像标题生成的不同意图。如图 1 所示，ASG 是一个有向图，由基于图像的三类抽

象节点组成，即对象、属性和关系，而每个节点不需要具体的语义标签。因此，这种图结

构不需要语义识别，既可以手工获取，也可以自动获取。更重要的是，ASG 能够反映用户

在描述什么和如何详细描述方面的细粒度意图。

为了生成与指定 ASG 相关的字幕，我们提出了一个基于编解码框架的 ASG2Caption

模型，该模型解决了 ASG 控制字幕生成中的三个主要问题。首先，注意我们的 ASG 只包

含一个抽象的场景布局，没有任何语义标签，因此有必要在图中同时捕获意图和语义。因

此，我们提出了一个角色感知的图形编码器来区分精细的节点角色的意图和增强每个模型

与图形上下文，以改善语义表示。其次，ASG 不仅通过不同的节点控制要描述的内容，而

且通过节点的连接方式隐式地决定描述的顺序。因此，我们提出的解码器同时考虑节点的

内容和结构，以注意按图流顺序生成所需的内容。最后但并非最不重要的是，在 ASG 中充

分覆盖信息，而不遗漏或重复是很重要的。为此，我们的模型在解码过程中逐步更新图形

表示，以保持对图形访问状态的跟踪。

由于没有可用的带有 ASG 注释的数据集，我们自动构造 ASG，用于两个广泛使用的

图像字幕数据集 Visual Genome 和 mscoco 的训练和评估。大量的实验表明，与精心设

计的基线相比，我们的方法在指定的 asg 下可以获得更好的可控性。此外，我们的模型能

够基于自动采样的 asg 生成更多不同的字幕来描述图像中的各个方面。

我们的工作贡献有三方面：

•据我们所知，我们首先提出了用抽象场景图对图像字幕生成进行细粒度控制，能够

控制字幕生成过程中的细节层次（如是否应包含属性、对象之间的关系等）。

•提出的 ASG2 标题模型由 roleaware 图形编码器和图形语言解码器组成，用于自动

识别抽象图形节点并生成具有预期内容和顺序的标题。

•我们在两个数据集上实现指定 ASG 的最新可控性。我们的方法也可以很容易地扩展

到自动生成的 asg，它能够生成不同的图像描述。

2、相关工作

2.1

图像字幕[3，11，40，42，43]在神经编码器-解码器框架的基础上取得了显著的改

进[38]。Show-Tell 模型[40]使用卷积神经网络（CNNs）[14]将图像编码成固定长度的

向量，并使用递归神经网络（RNNs）[15]作为解码器顺序生成单词。为了获取细粒度的

视觉细节，提出了注意型图像字幕模型[3,25,43]，在生成过程中动态地将文字与相关图

像部分结合起来。为了减少序贯训练中的暴露偏差和度量失配[32]，我们使用强化学习优

化了不可微度量[24，34]。为了进一步提高准确率，在字幕框架中采用了检测到的语义概

念[11，42，47]。从大型外部数据集学习到的视觉概念也使模型能够生成新对象的字幕，

而不是成对的图像字幕数据集[1，26]。在图像字幕中，对概念上更结构化的表示，场景

图[18]进行了进一步的探索[45，46]，它可以利用检测到的对象及其关系。在这项工作中，

我们建议使用抽象场景图（ASG）作为控制信号来生成所需的不同图像标题，而不是使用

完全检测到的场景图（这已经是一项具有挑战性的任务[48，49]）来提高字幕的准确性

ASG 便于与人交互，在细粒度上控制字幕，比完全检测的场景图更易于自动获取。

2.2

剩余10页未读，继续阅读

评论收藏

内容反馈

小白痴吃吃

粉丝: 0
资源: 1

抽象场景图00387.docx

Java 中数据隐藏和抽象之间的区别.docx

创建Java中的抽象类.docx

Java 程序在类中显示抽象.docx

Java常见面试题208道.docx

Mapreduce#文档.docx

java面试常见问题.docx

java最新高薪面试题库.docx

影视特效设计制作方案.docx

云计算中的VDC.docx

关于线性代数的复习总结.docx

Java 8中Lambda表达式默认方法的模板.docx

微服务设计与解决方案.docx

23种设计模式知识要点.docx

脚本全自动完美搭建先电版openstack.docx

阿里巴巴编码规范 基础技能认证 考题分析(考题+答案).docx

2020未来智慧园区白皮书.pdf

支持多数据库的ORM框架ef-orm.zip

Java 面经手册·小傅哥.pdf

解压后拖入浏览器扩展程序使用.zip

103套PPT模板.zip

Beyond Compare 免安装直接使用

notepad++.exe官网下载

Mars4_5.zip

QT自制精美Ui模板系列（一）桃子风格模板 - 二次开发专用

keygen_2032.rar

Postman9.12.2安装包

python爬虫数据可视化分析大作业.zip

WinRAR 6.01 简体中文版_x64(无广告).exe

智能门锁 指纹锁 密码锁 蓝牙锁 门禁锁.rar

最新资源

阿里巴巴编码规范基础技能认证考题分析(考题+答案).docx

智能门锁指纹锁密码锁蓝牙锁门禁锁.rar