没有合适的资源?快使用搜索试试~ 我知道了~
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs 翻译
资源推荐
资源详情
资源评论
Say As You Wish: Fine-grained Control of Image
Caption Generation with Abstract Scene Graphs
用抽象场景图精细控制图片标题生成
论文链接:https://arxiv.org/abs/2003.00387
代码链接:https://github.com/cshizhe/asg2cap
https://zhuanlan.zhihu.com/p/121064309
作者:Shizhe Chen1∗ , Qin Jin1† , Peng Wang2 , Qi Wu 2020
概述:
现有模型可以生成较为流利和视觉相关的图像描述,但却存在着与用户交互性差、多样性
低等问题。一方面,大多数图像描述模型仅被动地生成句子,并不考虑用户感兴趣的内容
或者期望描述的详细程度。被动生成模式容易造成句子缺乏多样性,倾向于使用常见的高
频表达生成较为“安全”的句子,较为简单空洞,且缺乏关键性的、用户所需的细节信息。
少数工作提出了主动控制图像描述生成,主要可以分为风格控制和内容控制两类。但是,
现有工作都仅提供非常粗粒度的控制信号,例如一个类别标签或者图像区域。这些控制信
号无法在更细粒度的级别上控制图像描述的生成,例如,是否需要生成物体的属性,要生
成多少属性标签;是否需要描述与目标物体相关的物体,以及物体之间的关系是什么;句
子的描述顺序应该如何等等。因此,我们提出了一种更加细粒度的控制信号,称为抽象场
景图(Abstract Scene Graph, ASG),如图 1 所示,使得可以通过 ASG 方便地控制
用户所希望表达的物体、属性和关系等。ASG 不仅能反映用户细粒度的描述意图,也能帮
助生成更具有多样性的图像描述。
我们进一步提出 ASG2Caption 模型更好地基于指定 ASG 生成图像描述。ASG2Caption
模型由角色感知图编码器和基于图的语言解码器构成,能够自动识别 ASG 中的抽象节点,
并根据图中指定的语义内容和描述顺序生成所需的图像描述。
创新点:ASG,能够考虑用户意图。
模型:
方法:
结果:
翻译:
摘要
人类能够用粗到细的细节来描述图像内容。然而,大多数的字幕模型都是意向
不可知的,不能根据不同的用户意向主动生成不同的描述。在这项工作中,我们提
出了抽象场景图(ASG)结构,以细粒度的方式来表示用户的意图,并控制生成的
描述应该是什么和如何详细。ASG 是一个有向图,由基于图像的三类抽象节点(对
象、属性、关系)组成,没有任何具体的语义标签 。因此,无论是手动获取还是自
动获取都很容易。在 ASG 的基础上,我们提出了一种新的 asg2 描述模型,该模型
能 够 识 别 用 户 意 图 和 图 中 的 语 义 , 从 而 根 据 图 的 结 构 生 成 所 需 的 标 题 。 与
VisualGenome 和 MSCOCO 数据集上精心设计的基线相比,我们的模型在 asg 上
实现了更好的可控性条件。它还通过自动采样不同的 asg 作为控制信号,显著提高
了字幕的多样性。
1 引言
图像字幕是一个复杂的问题,它要求机器同时完成目标识别、场景分类、属性和关系
检 测 等 多 项 计 算 机 视 觉 任 务 , 并 将其 归 纳 为 一 个 句 子 。 由 于 深 度 学 习 的 快 速 发 展
[14,15],最近的图像字幕模型[3,34,43]已经取得了实质性进展,甚至在一些基于准
确性的评估指标方面超过了人类[5,30,39]。
然而,大多数图像字幕模型是意向性的,只是被动地生成图像描述,而不关心用户感
兴趣的内容和描述的详细程度。相反,我们人类能够随心所欲地从粗到细地描述图像内容
例如,我们可以在图 1 中描述花的更具识别性的细节(如数量和颜色),但目前的系统完
全没有实现这样的用户意图。更糟糕的是,这种被动的标题生成会极大地阻碍多样性,并
倾向于生成平庸的描述[37,41]。尽管这些描述具有很高的准确性,但它们主要捕获频繁
的描述模式,不能代表整体的图像理解,而整体的图像理解应该能够识别图像中的不同方
面,从而能够产生更为多样的描述。
为了解决上述限制,以前很少有人提议积极控制图像字幕过程。一类作品[10,13,27]
侧重于控制事实、浪漫、幽默等形象描写的表现风格,另一类作品则侧重于控制不同的形
象区域[17]、对象[7,50]和词性标签[9]等描写内容,使模型能够描述用户感兴趣的图像内
容。然而,上述工作只能处理一个粗粒度的控制信号,如一个热标签或一组图像区域,难
以在细粒度上实现用户期望的控制,例如以不同的细节层次描述各种对象及其关系。
图 1:尽管意图不可知的标题可以正确地描述图像内容,但它们无法实现用户想要描
述的内容,而且缺乏多样性。因此,我们提出了抽象场景图(ASG)来控制用户想要的和
不同的图像字幕的生成。相应的区域、ASG 节点和生成的短语被标记为相同的颜色。
在这项工作中,我们提出了一种更细粒度的控制信号,即抽象场景图( ASG),以表
示可控图像标题生成的不同意图。如图 1 所示,ASG 是一个有向图,由基于图像的三类抽
象节点组成,即对象、属性和关系,而每个节点不需要具体的语义标签。因此,这种图结
构不需要语义识别,既可以手工获取,也可以自动获取。更重要的是,ASG 能够反映用户
在描述什么和如何详细描述方面的细粒度意图。
为了生成与指定 ASG 相关的字幕,我们提出了一个基于编解码框架的 ASG2Caption
模型,该模型解决了 ASG 控制字幕生成中的三个主要问题。首先,注意我们的 ASG 只包
含一个抽象的场景布局,没有任何语义标签,因此有必要在图中同时捕获意图和语义。因
此,我们提出了一个角色感知的图形编码器来区分精细的节点角色的意图和增强每个模型
与图形上下文,以改善语义表示。其次,ASG 不仅通过不同的节点控制要描述的内容,而
且通过节点的连接方式隐式地决定描述的顺序。因此,我们提出的解码器同时考虑节点的
内容和结构,以注意按图流顺序生成所需的内容。最后但并非最不重要的是,在 ASG 中充
分覆盖信息,而不遗漏或重复是很重要的。为此,我们的模型在解码过程中逐步更新图形
表示,以保持对图形访问状态的跟踪。
由于没有可用的带有 ASG 注释的数据集,我们自动构造 ASG,用于两个广泛使用的
图像字幕数据集 Visual Genome 和 mscoco 的训练和评估。大量的实验表明,与精心设
计的基线相比,我们的方法在指定的 asg 下可以获得更好的可控性。此外,我们的模型能
够基于自动采样的 asg 生成更多不同的字幕来描述图像中的各个方面。
我们的工作贡献有三方面:
•据我们所知,我们首先提出了用抽象场景图对图像字幕生成进行细粒度控制,能够
控制字幕生成过程中的细节层次(如是否应包含属性、对象之间的关系等)。
•提出的 ASG2 标题模型由 roleaware 图形编码器和图形语言解码器组成,用于自动
识别抽象图形节点并生成具有预期内容和顺序的标题。
•我们在两个数据集上实现指定 ASG 的最新可控性。我们的方法也可以很容易地扩展
到自动生成的 asg,它能够生成不同的图像描述。
2、相关工作
2.1
图像字幕[3,11,40,42,43]在神经编码器-解码器框架的基础上取得了显著的改
进[38]。Show-Tell 模型[40]使用卷积神经网络(CNNs)[14]将图像编码成固定长度的
向量,并使用递归神经网络(RNNs)[15]作为解码器顺序生成单词。为了获取细粒度的
视觉细节,提出了注意型图像字幕模型[3,25,43],在生成过程中动态地将文字与相关图
像部分结合起来。为了减少序贯训练中的暴露偏差和度量失配[32],我们使用强化学习优
化了不可微度量[24,34]。为了进一步提高准确率,在字幕框架中采用了检测到的语义概
念[11,42,47]。从大型外部数据集学习到的视觉概念也使模型能够生成新对象的字幕,
而不是成对的图像字幕数据集[1,26]。在图像字幕中,对概念上更结构化的表示,场景
图[18]进行了进一步的探索[45,46],它可以利用检测到的对象及其关系。在这项工作中,
我们建议使用抽象场景图(ASG)作为控制信号来生成所需的不同图像标题,而不是使用
完全检测到的场景图(这已经是一项具有挑战性的任务[48,49])来提高字幕的准确性
ASG 便于与人交互,在细粒度上控制字幕,比完全检测的场景图更易于自动获取。
2.2
剩余10页未读,继续阅读
资源评论
小白痴吃吃
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功