摘要
注意力机制在计算机视觉领域得到了广泛的研究和应用,利用构建通道或空间位置之间的依赖关系的能
力,有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制,并提出了一种新的计
算注意力权重的方法——三元组注意力,通过一个三分支结构捕捉跨维度交互。对于输入张量,三元组
注意力通过旋转操作和残差变换建立跨维度的依赖关系,并以极小的计算开销编码了跨通道和空间信
息。这种方法既简单又高效,可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任
务中,如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测,证明了该方法的有效
性。此外,通过可视化检查GradCAM和GradCAM++结果,提供了对三元组注意力性能的深入见解。本
文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。相关代码可以在ht
tps://github.com/LandskapeAI/triplet-attention上公开访问。
三元注意力机制
三元组注意力机制是一种注意力机制,旨在有效地处理跨维度的交互。它由三个分支组成,每个分支负
责捕捉输入中空间维度和通道维度之间的跨维度交互特征。具体来说,对于一个输入张量
$χ∈R^{C×H×W}$,该机制首先将输入传递给每个分支进行操作。每个分支负责聚合输入中特定维度与
通道维度之间的交互特征。
第一分支负责处理输入中空间维度H和W与通道维度C之间的交互特征。它通过在空间维度上应用最大池
化和平均池化操作,然后将结果展平并沿着通道维度连接,以获得跨空间维度的交互特征。
第二分支负责处理输入中空间维度H和W与通道维度C之间的交互特征。它首先对输入进行全局平均池化
操作,然后使用1×1卷积核将结果展平并沿着通道维度连接,以获得跨空间维度的交互特征。
第三分支负责处理输入中通道维度C与空间维度H和W之间的交互特征。它首先对输入进行全局最大池化
操作,然后使用1×1卷积核将结果展平并沿着通道维度连接,以获得跨通道维度的交互特征。
最后,将三个分支的结果连接起来,得到最终的跨维度交互特征。这种机制可以有效地捕捉输入中不同
维度之间的交互特征,从而更好地理解图像内容。
三元组注意力机制的优点
三元组注意力机制相对于其他注意力机制,如自注意力、多头注意力等,具有以下优势和特点:
1. 捕捉三元组信息:三元组注意力机制能够捕捉到三个元素之间的相互作用关系,从而更好地理解输
入信息。这种机制可以有效地应用于各种任务,如视觉目标检测、语言翻译、语音识别等。
2. 计算效率高:相较于其他注意力机制,三元组注意力机制的计算效率更高。它只关注三个元素之间
的相互作用,而不是对整个输入进行计算,从而减少了计算量和时间复杂度。