没有合适的资源?快使用搜索试试~ 我知道了~
面向视觉对话的自适应视觉记忆网络.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 126 浏览量
2022-12-15
14:21:48
上传
评论
收藏 149KB DOCX 举报
温馨提示
试读
7页
面向视觉对话的自适应视觉记忆网络.docx
资源推荐
资源详情
资源评论
当前,计算机视觉
[1]
与自然语言处理
[2]
相结合的跨模态任务获得大量关注,如图像描
述生成(image captioning)
[3-4]
、视觉问答(visual question answering)
[5-6]
等。视觉对话任务是指
计算机根据图片、图片描述以及历史对话信息对人所提出的问题进行流畅自然地回答。视
觉对话技术可以应用于大量的实际生活场景中,如协助视觉障碍患者完成对周围环境的感
知;如升级客服系统,使之智能化地对消费者所提出的问题作答;或让机器人拥有类似于
人的交流能力。
视觉对话是一项充满挑战性的任务。其中,视觉共指消解问题是关键的一个研究点,
它是指如何找到问题中的代词在图片中的具体目标指代。在视觉对话任务中最常用的数据
集 VisDial 中,有近 38%的问题以及 19%的答案包含代词,如
‘he’‘his’‘it’‘there’‘they’‘that’‘this’等。文献[7]通过神经模块网络确定问题中的代词在历史对
话中所指代的具体实体,然后从输入的图片完成视觉定位。文献[8]提出了适用于视觉对话
的双重注意力网络,它通过多头注意力机制学习问题与历史对话信息之间的潜在关联,然
后利用自底向上的注意力机制完成视觉上的目标检测。文献[9]提出了递归的视觉注意力来
对历史对话进行遍历,直至找到高置信度的视觉指代。总结先前的工作,它们都是通过文
本定位和视觉定位两个步骤来解决视觉共指消解问题。然而,每一步过程都有可能产生误
差,从而导致最终回答的问题精度不足。误差产生的主要原因是问题中的代词在对话历史
中所指代的目标依然难以确定。如在历史对话中其指代的目标在比较靠前的轮次,或者存
在语义相近,容易混淆的文本目标,这都容易导致文本定位的误差。而由历史对话中所找
到的文本指代完成视觉定位同样容易产生误差。其原因为图像中背景信息比较复杂,如背
景中有同目标类似的物体,亦或其背景的颜色特征、纹理特征与目标相近等,容易误检而
造成误差。同时先前工作都忽视了在很多情况下,问题的回答不需要利用历史对话,简单
的视觉信息可以直接完成作答。
本文将对话过程中已完成定位的视觉信息存储在外部的记忆库中,从而将上述的两个
步骤进行整合。在每回答一个问题时,不需要从历史对话中寻找问题中代词具体的指代,
而是直接从视觉记忆库中进行读取。通过外部视觉记忆库对文本定位和视觉定位的整合,
将先前的两步定位可能产生的误差缩减为对单步视觉记忆读取的误差,理论上单步的误差
要小于两步的误差。为了更好地处理视觉信息可直接作答的情形,在读取视觉记忆库的时
候,采用了自适应的方式,即动态地学习一个置信度。进一步地,引入视觉残差连接来缓
解此问题,从而更好地应对不同的情况。
1. 自适应视觉记忆网络
1.1 数据处理
视觉对话任务中的输入主要包括文本类数据和视觉类数据两种模态数据。其中,文本
类数据包括当前轮次所提出的问题 qtqt,历史对话
资源评论
罗伯特之技术屋
- 粉丝: 3652
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功