多维注意力特征聚合立体匹配算法.docx_基于多维注意力的立体匹配网络资源-CSDN文库

版权申诉

168 浏览量 2023-02-23 16:49:00 上传评论收藏 1.31MB DOCX 举报

立体匹配是计算机视觉领域的重要技术，它涉及到两个不同视角的图像——左图像和右图像——的对应像素在三维空间中的距离（位移）计算，即视差。这项技术广泛应用于自动驾驶、无人机导航、医学成像和机器人控制等多个领域，因为它能提供场景的三维理解，这对于环境感知和决策至关重要。近年来，基于深度学习的立体匹配算法已经成为主流，它们超越了传统方法，如SIFT、SURF等，能从原始图像中学习语义信息，提高匹配精度和计算效率。早期的深度学习方法，如DispNet，先通过CNN提取一维特征，再进行后续的传统后处理来预测视差，这种非端到端的方式限制了性能。随着全卷积神经网络(FCN)的出现，研究者开始构建端到端的立体匹配网络，如PSMNet引入空间金字塔池化模块来捕捉不同尺度和位置的上下文信息，CFPNet和MSFNet进一步改进，利用扩张卷积和多尺度特征融合增强全局上下文感知。 GC-Net是第一个尝试在三个维度上理解全局语义信息的网络，它采用3D编码-解码结构。随后，各种变体被提出，包括结合2D和3D卷积的多维聚合子网络、多尺度残差3D卷积模块以及堆叠的3D沙漏结构，以更有效地利用多维度上下文。尽管这些方法显著提升了匹配性能，但它们在特征提取和代价聚合中缺乏多层次、多模块的信息交互，导致网络对长距离上下文的依赖不足，影响了准确的视差估计。注意力机制的引入为解决这一问题提供了新思路。在语义分割、自然语言处理和超分辨率等领域，注意力机制已经证明了其价值。在立体匹配中，SE-Net的扩展形式如扩张空间金字塔注意力模块虽减少了计算成本，但降维操作可能削弱了通道注意力的学习。MRDA-Net仅在特征提取和编码-解码网络末端引入单一的3D注意力模块，未能实现多模块信息交互。因此，现有方法在立体匹配网络中应用注意力机制的方式较为单一，缺乏有效协同。针对上述挑战，提出的多维注意力特征聚合立体匹配算法结合了2D注意力残差模块和3D注意力沙漏聚合模块。2D注意力残差模块保留了网络的低级结构特征，以提取左右图像的细节信息，通过无降维的自适应2D通道注意力机制，增强了特征的全面性和有效性，学习了跨通道的相关性。3D注意力沙漏聚合模块则利用3D平均池化和最大池化构建3D通道注意力，对不同模块的代价体进行重新校准和整合，以计算匹配代价。该算法网络结构清晰，2D注意力残差模块负责特征提取，3D注意力沙漏聚合模块负责代价聚合，两部分共同作用，从多模块、多层次的角度关注网络中的上下文信息，提高了立体匹配的性能。通过这样的设计，算法能够更好地捕捉和利用全局信息，增强了网络的鉴别能力，有助于更准确地估计视差。

资源推荐

资源详情

资源评论