面向视觉对话的自适应视觉记忆网络.docx资源-CSDN文库

版权申诉

126 浏览量 2022-12-15 14:21:48 上传评论收藏 149KB DOCX 举报

资源推荐

资源详情

资源评论

当前，计算机视觉

[1]

与自然语言处理

[2]

相结合的跨模态任务获得大量关注，如图像描

述生成(image captioning)

[3-4]

、视觉问答(visual question answering)

[5-6]

等。视觉对话任务是指

计算机根据图片、图片描述以及历史对话信息对人所提出的问题进行流畅自然地回答。视

觉对话技术可以应用于大量的实际生活场景中，如协助视觉障碍患者完成对周围环境的感

知；如升级客服系统，使之智能化地对消费者所提出的问题作答；或让机器人拥有类似于

人的交流能力。

视觉对话是一项充满挑战性的任务。其中，视觉共指消解问题是关键的一个研究点，

它是指如何找到问题中的代词在图片中的具体目标指代。在视觉对话任务中最常用的数据

集 VisDial 中，有近 38%的问题以及 19%的答案包含代词，如

‘he’‘his’‘it’‘there’‘they’‘that’‘this’等。文献[7]通过神经模块网络确定问题中的代词在历史对

话中所指代的具体实体，然后从输入的图片完成视觉定位。文献[8]提出了适用于视觉对话

的双重注意力网络，它通过多头注意力机制学习问题与历史对话信息之间的潜在关联，然

后利用自底向上的注意力机制完成视觉上的目标检测。文献[9]提出了递归的视觉注意力来

对历史对话进行遍历，直至找到高置信度的视觉指代。总结先前的工作，它们都是通过文

本定位和视觉定位两个步骤来解决视觉共指消解问题。然而，每一步过程都有可能产生误

差，从而导致最终回答的问题精度不足。误差产生的主要原因是问题中的代词在对话历史

中所指代的目标依然难以确定。如在历史对话中其指代的目标在比较靠前的轮次，或者存

在语义相近，容易混淆的文本目标，这都容易导致文本定位的误差。而由历史对话中所找

到的文本指代完成视觉定位同样容易产生误差。其原因为图像中背景信息比较复杂，如背

景中有同目标类似的物体，亦或其背景的颜色特征、纹理特征与目标相近等，容易误检而

造成误差。同时先前工作都忽视了在很多情况下，问题的回答不需要利用历史对话，简单

的视觉信息可以直接完成作答。

本文将对话过程中已完成定位的视觉信息存储在外部的记忆库中，从而将上述的两个

步骤进行整合。在每回答一个问题时，不需要从历史对话中寻找问题中代词具体的指代，

而是直接从视觉记忆库中进行读取。通过外部视觉记忆库对文本定位和视觉定位的整合，

将先前的两步定位可能产生的误差缩减为对单步视觉记忆读取的误差，理论上单步的误差

要小于两步的误差。为了更好地处理视觉信息可直接作答的情形，在读取视觉记忆库的时

候，采用了自适应的方式，即动态地学习一个置信度。进一步地，引入视觉残差连接来缓

解此问题，从而更好地应对不同的情况。

1. 自适应视觉记忆网络

1.1 数据处理

视觉对话任务中的输入主要包括文本类数据和视觉类数据两种模态数据。其中，文本

类数据包括当前轮次所提出的问题 qtqt，历史对话

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余6页未读，立即下载

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3652
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip