RetinaNet目标检测模型训练和推断.zip_RetinaNet的目标检测资源-CSDN文库

共258个文件

py：117个

pyc：102个

pyd：6个

版权申诉

67 浏览量 2024-09-06 12:10:15 上传评论收藏 4.58MB ZIP 举报

1 目标检测的定义目标检测（Object Detection）的任务是找出图像中所有感兴趣的目标（物体），确定它们的类别和位置，是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态，加上成像时光照、遮挡等因素的干扰，目标检测一直是计算机视觉领域最具有挑战性的问题。目标检测任务可分为两个关键的子任务，目标定位和目标分类。首先检测图像中目标的位置（目标定位），然后给出每个目标的具体类别（目标分类）。输出结果是一个边界框（称为Bounding-box，一般形式为(x1,y1,x2,y2)，表示框的左上角坐标和右下角坐标），一个置信度分数（Confidence Score），表示边界框中是否包含检测对象的概率和各个类别的概率（首先得到类别概率，经过Softmax可得到类别标签）。 1.1 Two stage方法目前主流的基于深度学习的目标检测算法主要分为两类：Two stage和One stage。Two stage方法将目标检测过程分为两个阶段。第一个阶段是 Region Proposal 生成阶段，主要用于生成潜在的目标候选框（Bounding-box proposals）。这个阶段通常使用卷积神经网络（CNN）从输入图像中提取特征，然后通过一些技巧（如选择性搜索）来生成候选框。第二个阶段是分类和位置精修阶段，将第一个阶段生成的候选框输入到另一个 CNN 中进行分类，并根据分类结果对候选框的位置进行微调。Two stage 方法的优点是准确度较高，缺点是速度相对较慢。常见Tow stage目标检测算法有：R-CNN系列、SPPNet等。 1.2 One stage方法 One stage方法直接利用模型提取特征值，并利用这些特征值进行目标的分类和定位，不需要生成Region Proposal。这种方法的优点是速度快，因为省略了Region Proposal生成的过程。One stage方法的缺点是准确度相对较低，因为它没有对潜在的目标进行预先筛选。常见的One stage目标检测算法有：YOLO系列、SSD系列和RetinaNet等。 2 常见名词解释 2.1 NMS(Non-Maximum Suppression) 目标检测模型一般会给出目标的多个预测边界框，对成百上千的预测边界框都进行调整肯定是不可行的,需要对这些结果先进行一个大体的挑选。NMS称为非极大值抑制，作用是从众多预测边界框中挑选出最具代表性的结果，这样可以加快算法效率，其主要流程如下：设定一个置信度分数阈值，将置信度分数小于阈值的直接过滤掉将剩下框的置信度分数从大到小排序，选中值最大的框遍历其余的框，如果和当前框的重叠面积(IOU)大于设定的阈值（一般为0.7），就将框删除（超过设定阈值，认为两个框的里面的物体属于同一个类别）从未处理的框中继续选一个置信度分数最大的，重复上述过程，直至所有框处理完毕 2.2 IoU(Intersection over Union) 定义了两个边界框的重叠度，当预测边界框和真实边界框差异很小时，或重叠度很大时，表示模型产生的预测边界框很准确。边界框A、B的IOU计算公式为: 2.3 mAP(mean Average Precision) mAP即均值平均精度，是评估目标检测模型效果的最重要指标，这个值介于0到1之间，且越大越好。mAP是AP(Average Precision)的平均值，那么首先需要了解AP的概念。想要了解AP的概念，还要首先了解目标检测中Precision和Recall的概念。首先我们设置置信度阈值（Confidence Threshold）和IoU阈值（一般设置为0.5，也会衡量0.75以及0.9的mAP值）：当一个预测边界框被认为是True Positive（TP）时，需要同时满足下面三个条件： Confidence Score > Confidence Threshold 预测类别匹配真实值(Ground truth)的类别预测边界框的IoU大于设定的IoU阈值不满足条件2或条件3，则认为是False Positive（FP）。当对应同一个真值有多个预测结果时，只有最高置信度分数的预测结果被认为是True Positive，其余被认为是False Positive。 Precision和Recall的概念如下图所示： Precision表示TP与预测边界框数量的比值

资源推荐

资源详情

资源评论

收起资源包目录

RetinaNet目标检测模型训练和推断.zip （258个子文件）

compute_overlap.c 347KB

setup.cfg 413B

classes.csv 14B

compute_overlap.cp35-win_amd64.exp 856B

ResNet50RetinaNet.ipynb 895KB

ResNet50RetinaNet-checkpoint.ipynb 895KB

demo.jpg 183KB

000000008021.jpg 176KB

compute_overlap.cp35-win_amd64.lib 2KB

README_RetinaNet.md 18KB

README.md 8KB

ISSUE_TEMPLATE.md 1KB

CONTRIBUTORS.md 811B

compute_overlap.o 350KB

compute_overlap.obj 426KB

coco2.png 491KB

coco3.png 468KB

coco1.png 269KB

train.py 21KB

generator.py 14KB

open_images.py 14KB

retinanet.py 14KB

anchors.py 12KB

image.py 11KB

debug.py 11KB

transform.py 10KB

filter_detections.py 9KB

eval.py 9KB

test_generator.py 9KB

test_anchors.py 9KB

csv_generator.py 7KB

evaluate.py 7KB

test_csv_generator.py 7KB

test_misc.py 7KB

_misc.py 7KB

pascal_voc.py 7KB

test_filter_detections.py 6KB

test_transform.py 6KB

kitti.py 6KB

coco.py 5KB

test_coco.py 5KB

resnet.py 5KB

losses.py 5KB

visualization.py 5KB

__init__.py 4KB

mobilenet.py 4KB

densenet.py 4KB

test_img.py 4KB

eval.py 4KB

test_common.py 4KB

vgg.py 4KB

test.py 4KB

common.py 4KB

test_video.py 3KB

tensorflow_backend.py 3KB

coco_eval.py 3KB

convert_model.py 3KB

coco.py 3KB

colors.py 3KB

01_xml2cv.py 2KB

setup.py 2KB

test_train.py 2KB

test_mobilenet.py 2KB

config.py 2KB

共 258 条

## RetinaNet 安全帽目标检测 **Xu Jing** ### 0.模型准备（1）模型依赖库安装： ``` pip3 install numpy --user pip3 install . --user ``` 安装过程中，会检查依赖库，比如opencv-python，如果没有安装，会加载并安装。这里提一句，如果在安装时某个包下载安装不成功，自己记下来版本，比如opencv-python 3.4.5.20，可以直接先去利用pip或conda安装，但是一定要记得对应的版本。（2）模型编译： ``` python3 setup.py build_ext --inplace ```  以上两个步骤不知道有没有先后顺序，我是先安装然后编译的。安装是为了解决后面运行的时候，会提示import keras_retinanet 出错。编译是因为模型中cython部分，需要预编译。 ### 1.个人训练数据准备我们仍然使用**安全帽识别**的训练集，关于该数据集的详细介绍请参考：<https://github.com/DataXujing/YOLO-V3-Tensorflow> (1) 将xml数据转化为csv数据运行`python3 01_xml2csv.py` 和 `python3 02_train_label_fix_rename.py`,把xml数据转化成train_label_fix的样式： ``` filename,X1,Y1,X2,Y2,X3,Y3,X4,Y4,type 000015983ee24b9bb06f0a493e40d396.jpg,1751,595,1804,595,1804,652,1751,652,11 00010acb7e3041f485c097eafdc5a6eb.jpg,1432,1036,1474,1036,1474,1077,1432,1077,12 ``` ``` (X1,Y1) (X2,Y2) ------------------ | | | | | | | | ------------------ (X4,Y4) (X3,Y3) ``` 运行 `python3 03_data_pro.py`和`python3 04_check_xy.py`。可以生成`train_annotations.csv`和`val_annotations.csv`这是我们最终训练需要的标注数据。最终我们自己构建的训练数据的结构如下： ``` <CSV> |———— train_annotations.csv # 训练的标注数据 |———— val_annotations.csv # 验证的标注数据 |———— classes.csv # 类别对应 | |____ data └─ *.jpg # 训练图片 ``` + 自己制作的`train_annotations.csv`和`val_annotations.csv`数据集格式如下： ``` # 注意路径要绝对路径,并且没有表头！！！！ abs_path/to/image.jpg,x1,y1,x2,y2,class_name /data/img_001.jpg,837,346,981,456,hat /data/img_002.jpg,215,312,279,391,person /data/img_002.jpg,22,5,89,84,hat ``` + 自己制作的`classes.csv`数据集格式如下： ``` # 两列，但是不包含表头！！！ class_name,id #一个完整的例子： hat,0 person,1 ``` **注意：保存的csv文件是没有头部行的，不然后续代码会报错！** + 检查生成的数据是否合格要进行这一步，必须先要完成第一步中模型的下载与编译！检查数据可以使用以下命令： ``` python3 keras_retinanet/bin/debug.py csv keras_retinanet/CSV/train_annotations.csv keras_retinanet/CSV/classes.csv ``` 其中第一个参数csv代表要检查的数据是自己制作的数据集，第二个参数是train_annotations.csv对应的路径，第三个参数是classes.csv对应的路径。 + 图片存放位置这个可以根据自己的需要定，但是最好放在上面新建的CSV文件夹下面，这个使用路径比较方便。在我自己这个代码中，我是在CSV文件夹下新建一个data文件夹下存放自己的图片，此时注意与train_annotations.csv文件中的图片路径要一致，比如我这时候就应该是这样： ``` /data/img_001.jpg,837,346,981,456,hat /data/img_002.jpg,215,312,279,391,person /data/img_002.jpg,22,5,89,84,hat ``` + 关于模型的图片输入尺寸在`./keras_retinanet/bin/train.py` 中的`409、410`行有设置输入的默认参数（`800*1333`) ``` parser.add_argument('--image-min-side', help='Rescale the image so the smallest side is min_side.', type=int, default=800) parser.add_argument('--image-max-side', help='Rescale the image if the largest side is larger than max_side.', type=int, default=1333) ``` ### 2.模型训练主要是`./keras_retinanet/bin/train.py` 模型训练可以使用以下命令： ``` python3 keras_retinanet/bin/train.py csv keras_retinanet/CSV/train_annotations.csv keras_retinanet/CSV/classes.csv --val-annotations keras_retinanet/CSV/val_annotations.csv ``` 其中第一个参数`csv`代表要检查的数据是自己制作的数据集，第二个参数是`train_annotations.csv`对应的路径，第三个参数是`classes.csv`对应的路径，第四个参数`--val-annotations`是`val_annotations.csv`对应的路径。 **多卡并行训练** 多卡训练可用如下命令： ``` python3 keras_retinanet/bin/train.py --multi-gpu-force --multi-gpu 2 --batch-size 2 csv keras_retinanet/CSV/train_annotations.csv keras_retinanet/CSV/classes.csv --val-annotations keras_retinanet/CSV/val_annotations.csv ``` **替换backbone可用如下命令（可选的包括vgg16，vgg19，resnet50，resnet101，densenet121，densenet169，densenet201）** ``` python3 keras_retinanet/bin/train.py --steps 1000 --backbone vgg16 --gpu 2 csv keras_retinanet/CSV/train_annotations.csv keras_retinanet/CSV/classes.csv --val-annotations keras_retinanet/CSV/val_annotations.csv ``` **使用预训练的模型** 需要下载keras预训练的模型 ``` # resnet101 python3 keras_retinanet/bin/train.py --epochs 500 --steps 50000 --backbone resnet101 --snapshot ./snapshot/resnet101_csv_06.h5 --batch-size 16 csv keras_retinanet/CSV/train_annotations1.csv keras_retinanet/CSV/classes.csv --val-annotations keras_retinanet/CSV/val_annotations1.csv python3 keras_retinanet/bin/train.py --epochs 500 --steps 50000 --backbone densenet121 --batch-size 2 csv keras_retinanet/CSV/train_annotations1.csv keras_retinanet/CSV/classes.csv --val-annotations keras_retinanet/CSV/val_annotations1.csv # mobilenet python3 keras_retinanet/bin/train.py --epochs 500 --steps 50000 --backbone mobilenet224_1.0 --batch-size 64 csv keras_retinanet/CSV/train_annotations1.csv keras_retinanet/CSV/classes.csv --val-annotations keras_retinanet/CSV/val_annotations1.csv ``` 本项目我们使用ResNet101作为训练的backbone. ### 3.模型测试打开`./RetinaNet_test`文件夹, + 测试单张图像，修改`test_img.py`如下： ``` # set the modified tf session as backend in keras keras.backend.tensorflow_backend.set_session(get_session()) # adjust this to point to your downloaded/trained model # models can be downloaded here: https://github.com/fizyr/keras-retinanet/releases model_path = "./checkpoint/xxxx.h5" # 替换称自己训练的模型 test_img_fold = "./test_data" # 替换自己测试图片所在的文件夹 test_img_list = os.listdir(test_img_fold) # print(len(test_img_list)/2) # load retinanet model print("[info] wait seconds to load and transfer model!") model = models.load_model(model_path, backbone_name='resnet101') # 修改自己的backbone # if the model is not converted to an inference model, use the line below # see: https://github.com/fizyr/keras-retinanet#converting-a-training-model-to-inference-model # 训练好的模型需要转化成推断网络： # keras_retinanet/bin/convert_model.py /path/to/training/model.h5 /path/to/save/inference/model.h5 # model = models.convert_model(model) model = models.convert_model(model) # print(model.summary()) # load label to names mapping for visualization purposes labels_to_names = {0: 'hat', 1: 'person'} # 修改自己的类别对应关系 predict_img(model, test_img_fold, test_img_list) ``` + 测试视频，修改`test_video.py`如下： ``` keras.backend.tensorflow_backend.set_session(get_session()) model_path = "./checkpoint/xxx.h5" # 修改自己模型保存的位置 video_path = "./test.mp4" # 测试视频�

评论收藏

内容反馈

版权申诉