YoloV8改进-三元注意力，小参数大能力，即插即用，涨点自如

共3个文件

zip：2个

pdf：1个

版权申诉

计算机视觉

网络

数据集

10 浏览量 2024-02-05 13:31:29 上传评论 1 收藏 775.92MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

YoloV8改进策略：三元注意力，小参数大能力，即插即用，涨点自如.zip （3个子文件）

YoloV8改进策略：三元注意力，小参数大能力，即插即用，涨点自如

改进二

ultralytics-main.zip 387.9MB

改进一

ultralytics-main.zip 387.89MB

YoloV8改进策略：三元注意力，小参数大能力，即插即用，涨点自如.pdf 1.69MB

摘要

注意力机制在计算机视觉领域得到了广泛的研究和应用，利用构建通道或空间位置之间的依赖关系的能

力，有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制，并提出了一种新的计

算注意力权重的方法——三元组注意力，通过一个三分支结构捕捉跨维度交互。对于输入张量，三元组

注意力通过旋转操作和残差变换建立跨维度的依赖关系，并以极小的计算开销编码了跨通道和空间信

息。这种方法既简单又高效，可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任

务中，如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测，证明了该方法的有效

性。此外，通过可视化检查GradCAM和GradCAM++结果，提供了对三元组注意力性能的深入见解。本

文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。相关代码可以在ht

tps://github.com/LandskapeAI/triplet-attention上公开访问。

三元注意力机制

三元组注意力机制是一种注意力机制，旨在有效地处理跨维度的交互。它由三个分支组成，每个分支负

责捕捉输入中空间维度和通道维度之间的跨维度交互特征。具体来说，对于一个输入张量

$χ∈R^{C×H×W}$，该机制首先将输入传递给每个分支进行操作。每个分支负责聚合输入中特定维度与

通道维度之间的交互特征。

第一分支负责处理输入中空间维度H和W与通道维度C之间的交互特征。它通过在空间维度上应用最大池

化和平均池化操作，然后将结果展平并沿着通道维度连接，以获得跨空间维度的交互特征。

第二分支负责处理输入中空间维度H和W与通道维度C之间的交互特征。它首先对输入进行全局平均池化

操作，然后使用1×1卷积核将结果展平并沿着通道维度连接，以获得跨空间维度的交互特征。

第三分支负责处理输入中通道维度C与空间维度H和W之间的交互特征。它首先对输入进行全局最大池化

操作，然后使用1×1卷积核将结果展平并沿着通道维度连接，以获得跨通道维度的交互特征。

最后，将三个分支的结果连接起来，得到最终的跨维度交互特征。这种机制可以有效地捕捉输入中不同

维度之间的交互特征，从而更好地理解图像内容。

三元组注意力机制的优点

三元组注意力机制相对于其他注意力机制，如自注意力、多头注意力等，具有以下优势和特点：

1. 捕捉三元组信息：三元组注意力机制能够捕捉到三个元素之间的相互作用关系，从而更好地理解输

入信息。这种机制可以有效地应用于各种任务，如视觉目标检测、语言翻译、语音识别等。

2. 计算效率高：相较于其他注意力机制，三元组注意力机制的计算效率更高。它只关注三个元素之间

的相互作用，而不是对整个输入进行计算，从而减少了计算量和时间复杂度。

3. 可扩展性强：三元组注意力机制可以方便地扩展到更大的输入尺寸。由于它只关注三个元素之间的

相互作用，因此可以在保持较低计算复杂度的同时，对更大的输入进行操作。

4. 适用于各种数据类型：三元组注意力机制可以适用于各种数据类型，如图像、文本、音频等。由于

它关注的是三个元素之间的相互作用，因此可以广泛应用于各种不同的任务和领域。

5. 可解释性强：三元组注意力机制具有更强的可解释性。它可以清楚地解释哪些三元组对输出有影

响，从而使得模型更容易理解和调试。

实验结果主要表明了三方面：

1. 对比于单一路线注意力机制，triplet注意力机制在多个标准图像识别数据集上，如ImageNet、

Pascal VOC等，都表现出了优越的性能。

2. 在一些轻量级的模型，如MobileNetV2上，triplet注意力机制在保证精度的同时，参数的增加并不

多，为约0.03%。

3. 与其他几种注意力机制相比，triplet注意力机制在参数数量上是最少的，且在ImageNet数据集上

的top-1错误率降低了0.98%。

YoloV8实验结果

YOLOv8l summary (fused): 268 layers, 43631280 parameters, 0 gradients, 165.0

GFLOPs

        Class   Images Instances   Box(P     R   mAP50

mAP50-95): 100%|██████████| 29/29 [

         all    230    1412   0.922   0.957   0.986 

 0.737

         c17    230    131   0.973   0.992   0.995 

 0.825

         c5    230     68   0.945     1   0.995 

 0.836

     helicopter    230     43    0.96   0.907   0.951 

 0.607

        c130    230     85   0.984     1   0.995 

 0.655

         f16    230     57   0.955   0.965   0.985 

 0.669

         b2    230     2   0.704     1   0.995 

 0.722

三元注意力代码

        other    230     86   0.903   0.942   0.963 

 0.534

         b52    230     70    0.96   0.971   0.978 

 0.831

        kc10    230     62   0.999   0.984    0.99 

 0.847

       command    230     40    0.97     1   0.995 

 0.811

         f15    230    123   0.891     1   0.992 

 0.701

        kc135    230     91   0.971   0.989   0.986 

 0.712

         a10    230     27     1   0.555   0.899 

 0.456

         b1    230     20   0.972     1   0.995 

 0.793

         aew    230     25   0.945     1    0.99 

 0.784

         f22    230     17   0.913     1   0.995 

 0.725

         p3    230    105    0.99     1   0.995 

 0.801

         p8    230     1   0.637     1   0.995 

 0.597

         f35    230     32   0.939   0.938   0.978 

 0.574

         f18    230    125   0.985   0.992   0.987 

 0.817

         v22    230     41   0.983     1   0.995 

  0.69

        su-27    230     31   0.925     1   0.995 

 0.859

        il-38    230     27   0.972     1   0.995 

 0.811

       tu-134    230     1   0.663     1   0.995 

 0.895

        su-33    230     2     1   0.611   0.995 

 0.796

        an-70    230     2   0.766     1   0.995 

  0.73

        tu-22    230     98   0.984     1   0.995 

 0.831

Speed: 0.2ms preprocess, 3.8ms inference, 0.0ms loss, 0.8ms postprocess per

image

### For latest triplet_attention module code please refer to the corresponding

file in root.

import torch

import torch.nn as nn

class BasicConv(nn.Module):

 def __init__(

   self,

   in_planes,

   out_planes,

   kernel_size,

   stride=1,

   padding=0,

   dilation=1,

   groups=1,

   relu=True,

   bn=True,

   bias=False,

 ):

   super(BasicConv, self).__init__()

   self.out_channels = out_planes

   self.conv = nn.Conv2d(

     in_planes,

     out_planes,

     kernel_size=kernel_size,

     stride=stride,

     padding=padding,

     dilation=dilation,

     groups=groups,

     bias=bias,

   )

   self.bn = (

     nn.BatchNorm2d(out_planes, eps=1e-5, momentum=0.01, affine=True)

     if bn

     else None

   )

   self.relu = nn.ReLU() if relu else None

 def forward(self, x):

   x = self.conv(x)

   if self.bn is not None:

     x = self.bn(x)

   if self.relu is not None:

     x = self.relu(x)

   return x

class ChannelPool(nn.Module):

 def forward(self, x):

   return torch.cat(

     (torch.max(x, 1)[0].unsqueeze(1), torch.mean(x, 1).unsqueeze(1)),

dim=1

   )

class SpatialGate(nn.Module):

 def __init__(self):

   super(SpatialGate, self).__init__()

   kernel_size = 7

   self.compress = ChannelPool()

   self.spatial = BasicConv(

     2, 1, kernel_size, stride=1, padding=(kernel_size - 1) // 2,

relu=False

   )

评论收藏

内容反馈

版权申诉

AI浩

粉丝: 14w+
资源: 216

YoloV8改进-三元注意力，小参数大能力，即插即用，涨点自如

35.java三元运算符.zip

新能源汽车行业10月投资策略：三元电池安全性再出问题，磷酸铁锂或将重回主流.zip

新能源汽车报告：三元高镍化（28页）.zip

新能源汽车行业深度研究报告：三元高镍正当时（48页）.zip

镍行业报告：三元材料镍需求释放（37页）.zip

新能源汽车行业10月投资策略：三元电池安全性再出问题，磷酸铁锂或将重回主流.pdf

新能源汽车产业链行业：三元材料：否极泰来，龙头确立.zip

258-参考文章：开式三元叶轮高效数控粗加工策略研究论文-论文.zip

三元股份：三元股份招股说明书.PDF

新能源汽车产业链行业：三元前驱体：结构升级,盈利分化，推荐上下游一体化企业.pdf

三元股份：三元股份2020年年度报告.PDF

三元电池行业深度报告（50页）.zip

参考资料-三元件串联LLC谐振变流器的优化设计策略.zip

20210329-正极材料深度报告：三元路线主导，高镍化大势所趋.pdf

20210526-国海证券-镍行业深度报告：三元电池需求驱动，硫酸镍成明星.pdf

新能源汽车产业链行业：三元前驱体：结构升级,盈利分化，推荐上下游一体化企业.zip

电信设备-多参数三元加密防伪信息存储商标.zip

电信设备-单参数三元加密防伪信息存储商标.zip

电信设备-多参数三元循环加密防伪信息存储商标.zip

YOLOv8-deepsort 实现智能车辆目标检测+车辆跟踪+车辆计数

YOLOv8网络结构图，自制visio文件，yolov8.vsds，需要的自取，在原有的基础上直接改就行了

yolov8(2023年8月版本),已经下好yolov8s.pt和yolov8n.pt

Transformer模型实现长期预测并可视化结果（附代码+数据集+原理介绍）

社交平台上经济类话题的文章热度信息，数据是真实的，但不是真实日期

YOLOV5 + 双目相机实现三维测距（新版本）

行人跌倒数据集（VOC格式）

Unet眼底血管图像分割数据集+代码+模型+系统界面+教学视频.zip

全新的SOTA模型YOLOv9

YOLOV5口罩检测数据集+代码+模型 2000张标注好的数据+教学视频.zip

最新资源