MLPerf基准套件技术概述
MLPerf基准套件是目前业界最流行的机器学习Benchmark套件之一。它旨在为深度学习(Deep Learning)框架、硬件加速器和云平台提供公平、可靠的基准测试手段。以下是MLPerf基准套件的技术概述:
目标受众
MLPerf基准套件面向任何对深度学习编程感兴趣的人、想要为系统采购提供参考或基准的个人、解决方案提供商(如戴尔公司,发布服务器/存储基准)、RFP答疑者和MLPerf社区贡献者。
基础设施
MLPerf基准套件拥有世界级的基础设施,位于创新实验室Zenith。该实验室配备了基于Intel Scalable Systems Framework(OPA、KNL、Xeon、OpenHPC)的TOP500级系统,424个节点双Intel Xeon Gold处理器,Omni-Path Fabric,超过160个Intel Xeon Phi(KNL)服务器,总体性能超过1 PF的峰值性能。实验室还配备了Lustre、Isilon H600、Isilon F800和NSS存储系统,液冷和风冷系统。
MLPerf简介
MLPerf是一款开源的机器学习基准套件,旨在衡量机器学习框架、机器学习硬件加速器和机器学习云平台的性能。MLPerf基准套件涵盖了不同的深度学习领域,使用实际数据集,提供了合理的度量指标(训练时间、准确性、延迟)。MLPerf的目标是提供公平、有用的基准测试手段,以衡量训练和推理性能。
HPC和深度学习工程
HPC和深度学习工程是MLPerf基准套件的重要组成部分。该部分负责设计和构建高性能计算(HPC)和深度学习工作负载系统,包括计算、存储、网络、软件、服务和支持。该部分还负责功率和性能分析、调整、最佳实践和权衡,专注于应用程序性能,提供垂直解决方案、研究和概念验证研究,并发布白皮书、博客、会议论文。
实验室设施
MLPerf基准套件拥有庞大的实验室设施,包括13,000平方英尺的实验室、1,300多台服务器、约10PB的存储空间,专门用于高性能计算和深度学习。实验室还提供了访问实验室系统的权限。
MLPerf基准套件是业界领先的机器学习Benchmark套件之一,旨在提供公平、有用的基准测试手段,以衡量机器学习框架、机器学习硬件加速器和机器学习云平台的性能。