【免费】YOLOv1论文详解【算法原理、置信度、IOU、损失函数等】.zip_mAP机器视觉资源-CSDN文库

共1个文件

pdf：1个

需积分: 0 107 浏览量 2023-04-23 10:46:21 上传评论收藏 1.2MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

YOLOv1论文详解【算法原理、置信度、IOU、损失函数等】.zip （1个子文件）

YOLOv1论文详解【算法原理、置信度、IOU、损失函数等】.pdf 1.27MB

YOLOv1论⽂详解【算法原理、置信度、IOU、损失函数等】

YOLOv1

从R-CNN到Faster R-CNN⼀直采⽤的思路是proposal+分类（proposal 提供位置信息，分类提供类别信息）精度已经很⾼，但由于

two-stage（proposal耗费时间过多）处理速度不⾏达不到real-time效果。

（R-CNN use region proposal methods to first generate potential bounding boxes in an image and then run a classifier

on these proposed boxes.）

YOLO提供了另⼀种更为直接的思路：直接在输出层回归bounding box的位置和bounding box所属的类别(整张图作为⽹络的输⼊，把

Object Detection 的问题转化成⼀个 Regression 问题)。

YOLO v1

⽹络结构借鉴了 GoogLeNet 。24个卷积层，2个全链接层。（⽤1×1 reduction layers 紧跟 3×3 convolutional layers 取代

GoogleNet的 inception modules ）。

The final output of our network is the 7 × 7 × 30 tensor of predictions.

优点

1.由于整个检测管道是单个⽹络，因此可以直接根据检测性能进⾏端到端优化。

2.与基于滑动窗⼝和基于区域提案的技术不同，YOLO在训练和测试期间可以看到整个图像，因此它可以隐式地编码有关类及其外观的上下

⽂信息。

算法原理

1.在YOLOv1中作者将⼀幅图⽚分成7x7个⽹格(grid cell)，由⽹络的最后⼀层输出7×7×30的tensor，

也就是说每个格⼦输出1×1×30的

tensor

。30⾥⾯包括了2个bounding box的x，y，w，h，confidengce以及针对格⼦⽽⾔的20个类别概率，输出就是 7x7x(5x2 + 20)

。(通⽤公式： SxS个⽹格，每个⽹格要预测B个bounding box还要预测C个categories，输出就是S x S x (5×B+C)的⼀个tensor。注

意：class信息是针对每个⽹格的，confidence信息是针对每个bounding box的），如Figure 2: The Model所⽰。

2.我们的系统将输⼊图像划分为⼀个S×S⽹格。如果对象的中⼼落⼊⼀个⽹格单元格中，则该⽹格单元格负责检测该对象。

算法⾸先把输⼊图像划分成S×S的格⼦，然后对每个格⼦都预测B个bounding boxes，每个bounding box都包含5个预测值：x,y,w,h和

confidence。x，y就是bounding box的中⼼坐标，与grid cell对齐（即相对于当前grid cell的偏移值），使得范围变成0到1；w，h进⾏

归⼀化（分别除以图像的w和h，这样最后的w和h就在0到1范围）。confidence代表了所预测的box中【含有object的置信度】和【这

个box预测的有多准】两重信息。

3.损失函数如下图所⽰：

注：损失函数只有在该⽹格单元格中存在⼀个对象时，才能惩罚分类错误。

4. 我们根据图像的宽度和⾼度来规范化边界框的宽度和⾼度，使它们落在0和1之间。我们将边界框x和y坐标参数化为特定⽹格单元位置的

偏移，因此它们也在0和1之间有界（We normalize the bounding box width and height by the image width and height so that

they fall between 0 and 1. We parametrize the bounding box x and y coordinates to be offsets of a particular grid cell

location so they are also bounded between 0 and 1.）。

专业词汇解释：

作者在YOLO算法中把物体检测（object detection）问题处理成回归问题，⽤⼀个卷积神经⽹络结构就可以从输⼊图像直接预测

bounding box和类别概率。

（ Instead, we frame object detection as a regression problem to spatially separated bounding boxes and associated class

probabilities.我们将对象检测框架做为⼀个回归问题，以实现空间分离的边界框和相关的类概率。）

1.置信度(confidence)

置信度(confidence)=类概率*IoU

Pr(Object)是边界框内存在对象的概

率，若存在对象，Pr(Object)=1，否则Pr(Object)=0；IOU是真实框(ground truth)与预测框(predicted box)的交并⽐

2.IoU（Intersection over Union ratio）

实际上就是预测框和真实框⾯积的交集与并集的⽐值（两边界框相交部分⾯积与相并部分⾯积之⽐）。我们认为只有IoU>0.5的priorbox才

是有价值的。

内容反馈

网创学长

粉丝: 2041
资源: 914

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip