【免费】7-机器学习系列（7）：目标检测之--YOLO算法原理及python实现1_pythonyolo算法,yolo算法的原理与实现资源-CSDN文库

需积分: 0 8 浏览量 2022-08-03 13:28:39 上传评论 7 收藏 12.58MB PDF 举报

资源推荐

资源详情

资源评论

机器学习系列 (7)

目标检测之YOLO算法原理及Python实现

目标检测：

1.目标分类

2.目标定位

3.特征点检测

4.滑动窗口检测

5.卷积的滑动窗口实现

YOLO算法：

1.什么是YOLO

2.边界框（Bounding Box）回归

3.交并比（IOU）

4.非极大抑制（NMS）

5.Anchor box

6.候选区域（Region proposals）(optional)

7.YOLO算法总结

YOLO的Python实现：

见文章内容

申明

本文原理解释及公式推导部分均由LSayhi完成，供学习参考，可传播；代码实现部分的框架由Coursera提供，由LSayhi完成，详细数据及代码可在

github查阅。 https://github.com/LSayhi/Neural-network-and-Deep-learning (https://github.com/LSayhi/Neural-network-and-Deep-learning)

一、目标检测

1.目标分类：

目标分类即对图像中的物体进行识别分类，是目标检测的第一阶，只要求分辨出对象的类别，常用卷积神经网络(CNN）实现。例如在自动驾驶应用

中，目标分类的作用是识别出图片中的物体属于哪一个类别，属于是行人、汽车、自行车、红绿灯、护栏等。

2.目标定位：

目标定位即对图像中的物体进行位置识别，是目标检测的第二阶，要求输出对象的坐标信息，坐标常用中心点和长宽来表示。例如在自动驾驶中，

目标定位的作用是确定图片中的行人、汽车等物体的具体位置。

3.特征点检测：

特征点检测即要对物体的某些特征进行识别，这可以通过神经网络输出相应特征点的坐标来实现，只需要把网络的输出改为特征点的坐标。例如在

人脸识别应用中，识别出多组人脸特征点的信息，并根据识别出的特征点信息对此次检测的人脸进行识别。

4.滑动窗口检测：

滑动窗口检测即是要通过“滑动”检测窗口，对每一个窗口图像分别输入CNN进行识别，窗口大小可根据实际取值，例如图片像素为6286283，则可

取正方形窗口边长为小于628的整数，然后滑动窗口到其它位置，按一定顺序遍历整张图片，输出每一次窗口里是否有物体，是什么物体，性能依

赖于窗口大小的选取及滑动的步长，由于CNN需要一个个处理窗口图像，若步长和窗口较小，检测的精度提高，但需要很长的时间；如果步长和窗

口较大，虽然时间减小，但可能会降低检测精度。

Figure 1 : 滑动窗口检测示意图

5.滑动窗口的卷积实现：

滑动窗口的卷积实现是为了解决滑动窗口检测中的矛盾而提出的一种检测方式。为了构建滑动窗口的卷积实现，首先要将CNN最后的全连接层转化

成卷积层，举个例子看一下：假设用来做分类任务的CNN的输入大小是的tensor，滤波器的大小是 ,最大池化 ,再经过两

层全连接层，输出为softmax层的大小为4(对应四种检测对象，如行人、汽车、摩托车、背景)，那么通过把全连接层替换为卷积层，亦可实现和同

样的效果，只不过此时的输出的是的tensor，过程如下图所示。

∗

Figure 2 : 全连接转卷积实现

现在通过这个例子来说明为什么滑动窗口的卷积实现更高效，假设现在整张图片的大小是 ,滑动窗口检测的窗口大小为，步长为

2，那么对整张图片进行滑动窗口检测需要四次检测，也就是说CNN运行了四次，不难发现（嘿嘿，真的不难！）在四次CNN运行中，有许多计算

（卷积操作）是重复的，那么如果减小这些重复计算呢？如果我们对整张的团片一起输入CNN进行卷积操作，而不是分四次，那么则有

许多公共部分的卷积操作可以共享，大大减小了计算量，结果就是一个的块，从正视图的角度看，四个小格子就分别对应普通滑动窗口检

测中每一次的结果。

Figure 3 : 滑动窗口的卷积实现

以上就是目标检测的基础内容，下个部分介绍YOLO算法在目标检测中的应用。

∗

3 14

∗

二、YOLO算法

1.什么是YOLO：

算法是目标检测算法的一种。YOLO算法在处理图像时，比滑动窗口算法时间复杂度更低，它只需“观察”图片一次，

就可以检测出图片中的对象，并且可以检测多个对象，还能定位对象所在的位置（即边界），总结来说YOLO算法就是一种能够分类、定位的目标

检测算法。接下来将介绍YOLO算法的具体实现。

2.边界框预测（bounding box predictions）：

在滑动窗口的实现中，我们在图像中哪一个位置检测物体取决于滑动窗口的大小和步长，所以很有可能出现检测的对象超出窗口的范围或者比窗口

小得多，所以虽然能检测到物体，但是对于物体的位置信息却难以精确获得。

在YOLO算法中，我们通过bounding box预测，可以获得物体的精确位置信息。以下图为例，假设下图是一张像素的图

片，你要训练的CNN的输入为，为了方便解释我们将整张图片划为个网格（grid,实际可能划为等更精细），每一个网

格中若有物体（指的是物体的中心坐标在此网格内，如果物体有部分在某网格，但中心不在此网格，则该物体不属于此网格），则该网格的置信度

设为，否则设为（1表示有物体，0表示没有物体）。bounding box就是指的图片中物体的边界信息，由中心坐标和宽高即可

表示，然后对于每一个网格，外加数字编码所需检测的种类别的物体，在训练集中这些信息都是预先标注好的，中心坐标只有一个，必然属于

某个网格，宽和高不属于任一网格，可以跨越多个网格，这就解决了滑动窗口和卷积实现的滑动窗口方法只能按窗口预测位置的不灵活。

Figure 4 : Bounding box 标签设定

总结起来，对于第i个网格，标签Yi为 , 取1或0，代表网格中有无物体，表示物体中心坐

标和高度宽度，表示物体的种类的编码，如属于第一类则编码为，第二类则，依次类

推,如果网格中没有物体，则Pc为0，剩下的数字我们不关系其具体值，所以对于整张图片，一共有个网格，那么这张图片的标签Y就为9个网格标

签的集合，示例如下（为了简便，图片中给出了其中三个网格的便签）。比如在这个例中，的输入是 ,经过卷积层池化层等输出

的大小为 , 是网格的数量，实际是提取到的的网格特征，是每个网格的标签，我们通过将训练集输入网络，让网络学习到

这种标签的方式，在验证集上验证，并运用到测试集上，部署到实际系统中。

YOLO

（

youonlylookonce

）

（

figure

）

100

∗

100

∗

100

∗

100

∗

3 3

∗

3 19

∗

1 0

（

，

）（

，

）

n n

（

3 …

）

3 …

（

，

0 … … 0

）（

，

0 … … 0

）

CNN

100

∗

100

∗

8 3

∗

CNN

∗

3 8

3.交并比：

交并比，即交集和并集的比值。在YOLO算法中，交并比是用来判断定位是否准确的一个指标。如果网络预测的边界框和实际的边界框是

高度重合的，则交并比会比较大，反之，则小。所以，交并比越大，则预测的位置信息就越准确。一般我们认为IOU>0.6时定位准确，当然阈值越

大，则精度越高。这一概念将运动到非极大抑制中。

Figure 5 : 交并比IOU

4.非极大抑制:

非极大抑制，即是抑制非极大值（不是最大值，这点在讲述具体内容时可以更加明显理解）的表现。当我们在

运行CNN进行Bouding box预测时，对于图像中的每一单个物体，我们需要做到的的是正确分类并且输出有且仅有一个边界框，然而在实际中，由

于不是所有CNN提取的物体特征都属于一个网格（虽然一个物体的中心只有一个，但是CNN不一定能准确判断出对应区域只有一个物体），所以很

有可能有多个网格输出同一区域同一个物体的积极标签，这时候它们输出的分类是一样的，只不过中心坐标和宽高不一样而已（但有交集）。那么

如何解决这个问题呢？我们知道，由于网格大小和物体大小的非包含关系，可能出现对同一个物体进行多次预测，得到多个边界框，但可以理解的

是，由于都是预测同一个物体，这些边界框是会有比较大交集的，这个时候想只保留其中的一个最可能是实际物体位置的边界框，由交并比的概

念，我们可以对满足这两个条件的边界框进行非极大抑制，就是去掉概率小的,

保留概率最大的那个框。当然，对于那些交并比低于阈值的，我们也同样对他们运行NMS。

具体流程，举例说明。对于这张图片，共有个网格，我们让CNN输出的大小预测每个网格是否有物体，是什么物体，物体坐标

信息，在这个有网格的图片中有两俩车，对于每辆车，可能会有多个网格输出它们那有车（Pc*ci大，且（bx,by）即中心坐标在它那），如

。

Figure 6 : 可能对同一物体多次预测

那么输出的边界框就可能为，如 ,这时我们先找到对于车辆这一种类所有预测的框的置信度（概率值）中最大的一个，即右边那辆车的0.9的

那个框，将它保留，然后将和它有很高交并比的其它框抑制（变暗），由于左边那辆车的几个框与右边交并比为0，所以暂时不会被抑制（这就是为

什么称“非极大抑制”，而不是“非最大抑制”），同样的，在除去保留的那个框后，找到所有没有被抑制框中，找置信度最大的那个，也就是左边的那

个0.8的框，然后同样对和它有高交并比的框进行非极大抑制，最后剩下了右边0.9和左边0.8两个框，完成预测。如所示

（

IOU

）

（

Non

−

Maxsuppression

NMS

）

①

预测结果是同一个物体且

②

边界框交并比大于某选定阈值

(

∗

)

∗

19 19

∗

Figure

剩余16页未读，继续阅读

评论收藏

内容反馈

史努比狗狗

粉丝: 25
资源: 318

7-机器学习系列（7）：目标检测之--YOLO算法原理及python实现1

Pyqt5目标检测系统GUI程序——Yolo系列（带扩展带接口）

在 keras-tensorflow 中实现了用于场景文本检测的 YOLO 算法

基于改进YOLO算法的车位自动检测系统.docx

YOLO算法测试数据（OpenCV）

YOLO算法实现

python+tensorflow的yolo实现代码

YOLO v3目标检测算法的PyTorch实现（压缩包中包含240MB的预训练网络文件）

yolo算法讲解ppt

目标检测之yolo算法.pptx

Python-机器学习 课程

Tensorflow框架：目标检测yolo3算法实现

深度学习-物体检测-YOLO系列.rar

适用于YOLO系列等目标检测算法-常见25类几何体识别检测数据集+yolo格式标签.zip

YOLO算法：实时目标检测的革命性突破与广泛应用

yolo算法MATLAB程序

YOLO算法发展历程及改进

深度学习领域yolo-v5算法在小麦头目标检测（带数据集）-10、wheat-detection-using-yolo-v5

YOLO系列算法旋翼无人机目标检测 YOLO无人机检测数据集-drone-part1.zip

YOLO算法水果检测数据集+VOC和YOLO格式标签+700数据

NJUST机器学习课后作业python实现-朴素贝叶斯-神经网络-感知机-softmax回归-逻辑回归+源代码+文档说明

YOLO算法自行车检测数据集+VOC和YOLO格式标签+1800数据

Python yolo 神经网络实现视频中的行人车辆检测计数（车流量统计）YOLO多目标跟踪与计数

[目标检测]YOLO原理

基于YOLOv7+Pytorch实现目标检测模型源码+权值文件+说明文档.rar

基于python与yolov4的烟雾检测算法实现

机器学习课程作业-基于目标检测的独居老人跌倒检测系统-app原型/视频剧本/论文大纲/ppt大纲+源代码+文档说明

机器学习大作业-机器学习算法可视化平台+源代码+文档说明

最新资源

Python-机器学习课程