没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出。相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域。模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率。
资源推荐
资源详情
资源评论
收稿日期:20191216;修回日期:20200202 基金项目:国家自然科学基金资助项目(71761028)
作者简介:李智涛(1993),男,安徽芜湖人,硕士,主要研究方向为视觉问答、目标检测(li1021950623@163.com);周之平(1975),男,江西南
昌人,讲师,硕导,博士,主要研究方向为目标检测等;叶琴(1995),女,江西南昌人,硕士研究生,主要研究方向为计算机视觉等.
基于空间注意力推理机制的视觉问答算法研究
李智涛,周之平,叶 琴
(南昌航空大学 信息工程学院,南昌 330063)
摘 要:针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关
系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(selfattention,SA)和空间推理注
意力模块(spatialreasoningattention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出。相较于其
他注意力机制,SA和 SRA可以更好地将文本信息匹配图像目标区域。模型在 VQAv2数据集上进行训练和验
证,并在 VQAv2数据集上达到了 64.01%的准确率。
关键词:视觉问答;注意力机制;多模态学习;自注意力;空间推理注意力
中图分类号:TP391 文献标志码:A 文章编号:10013695(2021)03061095204
doi:10.19734/j.issn.10013695.2019.12.0663
Algorithmofvisualquestionansweringbasedonspatialattentionreasoningmechanism
LiZhitao,ZhouZhiping,YeQin
(SchoolofInformationEngineering,NanchangHangkongUniversity,Nanchang330063,China)
Abstract:Aimingattheexistingmultimodallearningwhichbasedonattentionmechanism,thispaperstudiedtheselfassoci
ationbetweenthecontextofthetextandthespatialpositionalrelationshipoftheobjectareaoftheimage.Basedontheanalysis
ofexistingattentionnetworks
,thispaperproposedtouseSAandSRAtomapthetextinformationtotheimageobject,andfinal
lyobtainedthefusionfeatureoutput.Comparedwithotherattentionmechanisms,SAandSRAcanbettermatchtextinformation
totheimageobjectarea.ThemodelistrainedandverifiedontheVQAv2datasetandachievesanaccuracyof64.01% onthe
VQAv2dataset.
Keywords:visualquestionanswering(VQA);attentionmechanism;multimodallearning;selfattention;spatialreasoning
attention
视觉问答(VQA)
[1]
是人工智能领域一个极具挑战性的新
兴研究领域,是一种同时涉及计算机视觉(
CV)和自然语言处
理(NLP)的多模态学习任务。视觉问答系统以一幅图片和关
于这幅图片的一个形式自由、开放式的自然语言问题作为输
入,以生成一 条自 然语言 答案 作 为输出。不同于 图 像 字幕
(
imagecaptioning),VQA需要同时对图像和文字进行理解,并
对图像 和 文 字 信 息 进 行 融 合。早 在 2014年,Malinowski等
人
[2]
就开始对视觉问答任务进行研究,通过对图片和问题进
行关联,最终预测答案。之后,
Antol等人
[3]
融合图片和问题特
征,预测问题的答案。受到注意力机制的启发,Lu等人
[4]
提出
协同注意力机制,将整幅图像的特征和问题文本特征进行融
合,对融合后的特征预测对应问题的答案。
Kim等人
[5]
使用双
线性注意力模块对图片特征和问题特征进行融合,以增强图片
全局信息和问题文本的匹配程度。Yu等人
[6]
在双线性注意力
基础上对融合后的特征进行高阶分解池化,获得表达能力更加
优秀的融合特征并进行答案预测。
Cadene等人
[7]
提出的多模
态关系推理网络和 Yu等人
[8]
提出的深层协同注意力模型,通
过增加模型深度来提升多模态特征之间的匹配能力,但在训练
阶段会产生大量的计算开销。文献[
9]通过修改 GRU和注意
力机制,将情感分析和词性标注用于视觉问答任务。
Anderson等人
[10]
提出的自顶向下—自底向上注意力网络
(bottomupandtopdownattention)是一个解决视觉问答任务中
图像目标和问题文本对应匹配的神经网络模型。网络使用
FasterRCNN
[11]
提取图片中目标特征,使用注意力网络将图像
目标和问题文本输入注意力融合网络,得到融合特征最终预测
答案,从而获得最先进的结果。
文献[
10]的网络模型虽然将图像中目标特征作为图像信
息的输入,但却忽视了图像中大量冗余目标与问题文本进行匹
配时出现的干扰,以及使用简单的注意力网络对图像目标和问
题文本进行融合时出现的匹配性能不足。针对上述不足,本文
在文献[10]模型的基础上进行改进:a)对图像目标和问题文
本分别使用自注意力模块提取特征,减少图像目标和问题文本
中冗余信息的干扰;b)提出空间推理注意力模块,对目标信息
和文本信息进行融合获得联合特征,增强多模态特征的匹配能
力。实验结果表明:相比于现有的方法,本文算法能凭借较低
的模型复杂度获得相媲美的计算性能。
1 相关工作
11 视觉问答中的注意力机制
注意力机制早期被用于自然语言处理中,它能表达自然语
言中的上下文关系,有效地解决自然语言处理过程中的分心问
题。研究人员发现,在视觉问答任务中注意力机制可以有效地
建立不同模态特征(图像特征和问题特征)之间的匹配关系。
因此,基于注意力机制的多模态学习任务逐步成为了视觉问答
研究中的主流方法之一。通用注意力机制采用了 encoderde
coder的网络结构,如图 1所示。将输入序列 X送入 encoder模
块中学习到抽象表达 C,再通过 decoder模块从抽象表达 C中
生成输出序列
Y。
第 38卷第 3期
2021年 3月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol38No3
Mar.2021
资源评论
weixin_38724363
- 粉丝: 5
- 资源: 972
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于javaweb的网上拍卖系统,采用Spring + SpringMvc+Mysql + Hibernate+ JSP技术
- polygon-mumbai
- Chrome代理 switchyOmega
- GVC-全球价值链参与地位指数,基于ICIO表,(Wang等 2017a)计算方法
- 易语言ADS指纹浏览器管理工具
- 易语言奇易模块5.3.6
- cad定制家具平面图工具-(FG)门板覆盖柜体
- asp.net 原生js代码及HTML实现多文件分片上传功能(自定义上传文件大小、文件上传类型)
- whl@pip install pyaudio ERROR: Failed building wheel for pyaudio
- Constantsfd密钥和权限集合.kt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功