论文研究 - 通过CPU卸载降低训练卷积神经网络的内存成本

行业研究

1 下载量 124 浏览量 2020-05-18 08:28:16 上传评论 1 收藏 694KB PDF 举报

温馨提示

试读

14页

近年来，卷积神经网络（CNN）在各种计算机视觉任务上实现了前所未有的进步。但是，训练大型CNN是一项资源密集型任务，需要专门的图形处理单元（GPU）和高度优化的实现，才能从硬件获得最佳性能。 GPU内存是CNN训练过程的主要瓶颈，限制了输入和模型体系结构的大小。在本文中，我们建议通过利用未充分利用的现代系统资源来缓解此内存瓶颈：该设备可托管带宽。我们的方法称为CPU卸载，其工作原理是在计算时将隐藏的激活转移到CPU，以便在正向传递期间释放GPU内存用于上游层计算。然后，根据需要通过向后传递的梯度计算将这些激活转移回GPU。我们方法的主要挑战是有效地重叠数据传输和计算，以最大程度地减少由附加数据传输引起的挂墙时间开销。在具有Nvidia Titan X GPU的典型工作站上，我们证明了我们的方法与梯度检查点相比具有优势，因为我们能够将训练VGG19模型的内存消耗减少35％，而将额外的墙面时间开销最小化为21％。进一步的实验详细说明了我们提出的不同优化技巧的影响。我们的方法与其他用于减少内存的技术（例如量化和稀疏化）正交，因此可以轻松地将它们组合起来以进行进一步的优化。

资源推荐

资源评论