随着人工智能技术的快速发展,AI时代的到来对计算、存储和网络等数据中心核心基础设施提出了前所未有的要求。本白皮书重点讨论了智能无损网络技术,它是为了解决当前AI异构计算的爆炸性性能增长以及存储介质进步带来的性能需求而产生的。智能无损网络技术通过优化网络架构、流控技术、拥塞控制、流量调度等关键技术,旨在实现更高的带宽、更低的时延以及更优的网络通信性能。
在AI异构计算方面,GPU/AI芯片的算力在过去五年内提升了600倍,而与此同时,存储介质如固态硬盘和NVMe的访问性能分别提升了100倍。这使得传统网络技术难以满足大数据和高性能计算的需求,导致网络带宽和通信效率成为新的瓶颈。为此,分布式AI集群系统对网络提出了更高的要求,包括采用高性能的RDMA网络和至少100GE以上的高带宽。
RDMA(Remote Direct Memory Access)网络技术通过内核旁路和内存零拷贝特性,大大减少了通信处理时延和数据搬移时延,从而提供了更高的单流通信带宽,尤其在100GE网络环境下,RDMA能够充分利用带宽优势,远胜于传统TCP网络。为了进一步论证这一点,白皮书中提到了多个案例,包括Uber的测试结果表明,在大规模GPU集群训练模型时,RDMA的性能比TCP高出50%至8倍不等。
智能无损网络技术的实施需要结合软硬件架构的创新设计。软件架构关注于网络流量控制、拥塞控制、流量调度以及网络与存储、计算的协同工作。硬件架构则涉及高速网络接口、交换机、路由器等关键组件的性能优化。
网络流量控制是智能无损网络技术中的重要组成部分,它通过流控技术、拥塞控制技术以及流量调度技术来实现。流控技术如流量映射、Pause帧与PFC(Priority Flow Control)等,以及PFC死锁的检测与预防,确保网络流的稳定性。拥塞控制技术例如ECN(Explicit Congestion Notification)、DCQCN(Data Center Queue Control)、AIECN和ECN overlay等,它们通过减少不必要的数据包重传来提高网络吞吐量。流量调度技术如负载分担等,确保网络资源得到高效利用。
智能无损网络技术还包含了网络与存储的协同工作,如存储网络区域划分和网络故障与存储多路径联动,从而提高数据访问速度和数据可靠性。此外,智能无损网络运维、网络可视化、性能测试及最佳实践等都是该技术的关键组成部分,其中,运维部分关注于网络健康状态的实时监控和故障的快速响应,而性能测试和最佳实践则为实际部署提供指导和验证。
智能无损网络技术与现有的大数据和互联网技术相结合,共同支撑着智慧城市的发展,其中大数据的处理能力和互联网的广覆盖特性是智能城市构建的重要基石。智慧城市不仅要求网络具备高性能,还要具备高智能,智能无损网络技术就是为满足这一需求而生。
在智能无损网络技术白皮书的提出了最佳实践案例——AtlasAI集群。这是一个专门为AI计算设计的集群,它通过智能无损网络技术,实现了高效的AI计算性能,为AI模型训练和推理提供了强有力的支撑。
总而言之,智能无损网络技术代表了数据中心网络技术发展的未来方向,它通过技术创新来满足不断增长的网络带宽和低时延需求,推动AI计算和大数据处理能力的进一步提升。随着技术的不断进步和优化,我们有理由相信,智能无损网络技术将成为新一代数据中心网络的标配。