定向视觉常识推理的结缔认知网络资源-CSDN文库

76 浏览量 2021-03-29 03:13:38 上传评论收藏 1.12MB PDF 举报

在本文中，研究者们探讨了如何使用一种名为“定向视觉常识推理的结缔认知网络（Connective Cognition Network for Directional Visual Commonsense Reasoning）”的新型神经网络模型来增强对视觉内容的认知层面理解。此研究由来自天津大学的Aming Wu、Yahong Han以及来自澳大利亚技术大学的Linchao Zhu和Yi Yang联合撰写，并在文章中提出了一个概念——视觉常识推理（Visual Commonsense Reasoning，简称VCR）。这项技术的目的是要让机器能够不仅仅识别视觉内容，还要能够进行有关场景相关细节的推理，并结合相关的常识知识来进行认知层面的视觉理解。研究的引言部分指出，近年来视觉理解的进步主要集中在视觉内容的识别层面感知上，例如物体检测、图像分割，或者是图像中视觉概念与图像区域的识别层面定位，比如图像描述和视觉问答。然而，为了实现完整的视觉理解，模型必须从感知推进到推理阶段，这包括对场景相关细节的推理以及相关的常识知识。VCR任务是朝着完全视觉理解迈出的关键一步，并且与之配套提出了一个精心设计的新数据集。文章强调，最近的神经科学研究表明，大脑功能或认知可以被描述为局部神经连接的全局和动态集成，这种集成对于特定的认知任务具有上下文敏感性。受此启发，研究者们提出了一个结缔认知网络（Connective Cognition Network，简称CCN），它动态地重组由问题和答案的意义所上下文化的视觉神经连接。具体来说，他们首先开发了视觉神经连接，以全面建模视觉内容的相关性。然后，引入了一个上下文化过程，将句子表示与视觉神经元的表示融合。最终，在上下文化的连接输出基础上，提出了一种定向连接性来推理答案或推理过程。文章中提到的实验结果表明，该方法在VCR数据集上表现出了有效性。特别是在问题到答案（Q→AR）模式下，该方法比目前最先进的方法高出大约4%。这表明了该网络模型在视觉常识推理方面取得了显著进展。整体而言，本文提出了一个先进的神经网络模型，通过模拟大脑的局部神经连接的动态重组，结合上下文化的句子和视觉内容表示，实现了对视觉常识推理问题的高效解答。这项研究不仅推进了计算机视觉领域的发展，也为人工智能在常识理解和推理方面提供了新的视角和工具。

资源推荐

资源评论