针对YOLOv5网络模型的金字塔结构不能有效捕捉目标的跨尺度特征信息和存在梯度消失现象以及易
导致目标检测精确率不高的问题,利用FPT ( feature pyramid transformer )的注意力机制有效提取目标的跨尺度特
征信息,把原YOLOv5网络模型中的FPN ( feature pyramid network)和PAN ( path aggregation network )结构替换为
FPT,在FPT结构的两端加入跳跃连接(skip connection)并引入新的Mish激活函数,从而提出一种改进金字塔和跳
跃连接的YOLOv5目标检测网络模型YOLO FS. 在PASCAL VOC和MS COCO数据集上的对比实验结果表明,基
于YOLO FS网络的目标检测在平均检测准确率、召回率和F1值上均有明显提升.
YOLOv5是一种高效且广泛使用的实时目标检测网络,它基于YOLO(You Only Look Once)系列模型。然而,YOLOv5的金字塔结构在处理跨尺度目标时可能存在不足,无法有效地捕获不同大小目标的特征,同时可能出现梯度消失问题,这可能导致目标检测的精度下降。
针对这些问题,研究者提出了一种名为YOLO FS的新模型,通过引入Feature Pyramid Transformer (FPT)来增强跨尺度特征信息的提取。FPT利用注意力机制,能够更好地关注图像中的关键区域,特别是在多尺度特征融合中表现出色。相比于YOLOv5中的Feature Pyramid Network (FPN)和Path Aggregation Network (PAN),FPT能更有效地整合不同层级的特征,从而提高对目标尺度变化的适应性。
此外,为了进一步优化网络性能,YOLO FS在FPT结构的两端添加了跳跃连接(skip connection)。跳跃连接是ResNet等深度网络中常用的技术,它允许低层特征直接传递到高层,减少了梯度消失或爆炸的问题,有助于信息的流畅传播和快速收敛。结合跳跃连接,FPT可以更好地保留低层细节信息,同时利用高层语义信息,提高了模型的检测性能。
研究中还引入了一个新的激活函数——Mish激活函数。相比于传统的ReLU激活函数,Mish函数具有连续的二阶导数,这有助于在网络训练中提供更平滑的梯度流,防止梯度消失,同时保持非线性特性以增加模型的表达能力。
实验在PASCAL VOC和MS COCO两个广泛使用的目标检测数据集上进行,结果显示YOLO FS在平均检测精度、召回率和F1值上都有显著提升。这些改进表明,YOLO FS网络在解决YOLOv5模型的局限性方面取得了成功,提高了目标检测的效率和准确性,尤其对于跨尺度目标的检测效果更佳。
YOLO FS是针对YOLOv5的优化版本,通过引入FPT、跳跃连接和Mish激活函数,解决了原模型在跨尺度特征提取和梯度消失上的问题,提升了目标检测的性能。这一改进对于实时和高精度目标检测任务具有重要的实践意义,为未来的目标检测算法设计提供了新的思路。