由于要权衡检测分类的精度和模型运行的速度,我们决定选用检测分类精度较好的目标检测框架,同时使用模型压缩和模型加速方法完成加速。
目标检测框架:基于YOLOv5的One-stage检测框架
模型压缩:基于 BN 放缩因子修剪主干网络
模型加速:TensorRT封装部署
深度学习框架:Pytorch1.7.0
数据增广:随机几何变换、颜色扰动、翻转、多尺度
使用WiderPerson行人数据集(监控抓拍)、COCO行人数据集训练预训练模型
Batch Size:8
SGD momentum: 0.843 weight_decay: 0.00036
学习率: 0.0032
NMS阈值:0.5
正样本阈值:0.5
通过实验发现街拍和商场数据的H:W=2:1的图像,使用输入大小为480的模型检测率更优,对于H:W=1:2的图像,使用输入大小为640的模型检测率更优。因此在测试时使用双模型检测,分析输入图像的尺寸择优选择模型完成预测。
通过实验验证8分类模型优于14分类模型,使用TensorRT和Slimming后加速效果明显。