作者:迪菲赫尔曼

即插即用篇 | YOLOv8 引入 Strip Pooling | 重新思考场景解析的空间池化

本改进已集成到 YOLOv8-Magic 框架。

在这里插入图片描述

空间池化已被证明在捕获像素级预测任务的长距离上下文信息方面非常有效,如场景解析。在本文中,我们超越了通常具有N × N规则形状的常规空间池化,重新思考空间池化的构成,引入了一种新的池化策略,称为条带池化,它考虑了一个长而窄的核,即1 × NN × 1。基于条带池化,我们进一步研究空间池化架构设计,通过1) 引入一个新的条带池化模块,使主干网络能够高效地模拟长距离依赖性,2) 提出一个以多样空间池化为核心的新颖构建块,以及3) 系统比较所提议的条带池化和传统空间池化技术的性能。这两种新颖的基于池化的设计都是轻量级的,可以作为现有场景解析网络中的一个高效插入-使用模块。在流行的基准测试(例如,ADE20KCityscapes)上的广泛实验表明,我们的简单方法确立了新的最先进结果。

代码地址:https://github.com/houqb/SPNet


1 论文简介

在计算机视觉领域,场景解析(scene parsing)是一项基础且具有挑战性的任务,其目标是为图像中的每个像素分配语义标签。传统的方法,如卷积神经网络(

lock