OGAI 详解:AIStation 调度平台如何实现大模型高效长时间
持续训练
大模型是当前通用人工智能产业发展创新的核心技术,目前国内已发布的生成式
AI 模型超过了 100 个。面向以大模型为核心的生成式 AI 开发与应用场景,近日浪潮
信息发布了大模型智算软件栈 OGAI(Open GenAI Infra)——“元脑生智”,为大模
型业务提供了全栈全流程的智算软件栈,包括 AI 算力系统环境部署、算力调度保障、
模型开发管理等。OGAI 软件栈由 5 层架构组成,从 L0 到 L4 分别对应于基础设施层
的智算中心 OS 产品、系统环境层的 PODsys 产品、调度平台层的 AIStation 产品、模
型工具层的 YLink 产品和多模纳管层的 MModel 产品。
其中 L2 层 AIStation 是面向大模型开发的 AI 算力调度平台,AIStation 针对大
模型训练中的资源使用与调度、训练流程与保障、算法与应用管理等方面进行了系统
性优化,具备大模型断点续训能力,保证长时间持续训练。AIStation 支撑浪潮信息
“源”大模型的训练算力效率达到 44.8%。某大型商业银行基于 AIStation 打造的大
规模并行运算集群,帮助其充分发掘计算潜能进行大模型训练,并荣获 2022 IDC“未
来数字基础架构领军者”奖项。
本文将重点讨论大模型训练面临的挑战、AIStation 如何提升大模型训练效率,
以及取得的效果。
一、大模型训练面临巨大挑战
1.大模型训练巨大算力成本和算力利用难题
大模型训练要面对的首要挑战就是海量数据和计算量,算力开销巨大,如 GPT-3
是在 10000 个 GPU 上训练得到的,“源 1.0”模型是在 2128 个 GPU 上通过 AIStation
平台完成 1800 亿 tokens 的训练,训练一个万亿 token 的 700 亿参数模型将花费上百
万美元。但计算平台的性能通常不能随着算力线性增长,而是会出现耗损,因此大模
型训练还需要高效的算力调度来发挥算力平台的效能。而这不仅需要依赖算法、框架
的优化,还需要借助高效的算力调度平台,以根据算力集群的硬件特点和计算负载特
性实现最优化的算力调度,整体提高算力利用率和训练效率。
2.耗时且维护复杂的多种网络兼容适配
大模型训练过程中,成千上万颗 GPU 会在节点内和节点间不断地进行通信。为了
获得最优的训练效果,单台 GPU 服务器会搭载多张 InfiniBand、ROCE 等高性能网卡,
为节点间通信提供高吞吐、低时延的服务。但不同的网络方案各有优劣,InfiniBand
因性能优异已被公认为大模型训练的首选,但其成本较高;RoCE 虽然成本较低,但