在大型监视视频中识别关键场景非常具有挑战性,因为使用全功能神经网络(NN)模型进行汽车识别会消耗大量计算资源,而这些场景很少发生。 本文提出了VScan,这是一种高效的模型联合机制,可在轻量级NN模型和全功能NN模型上自适应地调度流,以同时分析视频。 具有重叠的可检测对象的这两个组合模型是通用的且开发完善。 前者模型快速扫描视频以寻找潜在的兴趣场景。 后一种模型仅对具有识别场景的流进行进一步分析。 我们提供了一种模型选择方法来选择具有适当精度和高吞吐量的轻型模型。 VScan进一步确定关键参数以在运行时纠正预测,从而确保召回目标场景。 全功能模型负责确保输出精度。 为了动态保持较高的硬件效率和利用率,VScan使用自动采样来减少不必要的计算,提出流调度以最大程度地利用硬件,并设计GPU调度以优化数据处理流程。 实验结果表明,得益于模型联合机制和运行时调度优化,VScan可以将视频处理吞吐量提高多达15倍,而不会丢失关键场景。