没有合适的资源?快使用搜索试试~ 我知道了~
面向AI大模型的智算中心网络演进白皮书
需积分: 0 3 下载量 182 浏览量
2023-09-23
11:19:39
上传
评论
收藏 821KB PDF 举报
温馨提示


试读
30页
智算中心 网络 面向AI大模型的智算中心网络演进白皮书 人工智能是数字经济的核心驱动力,AI 大模型是人工智能的新引擎。AI 大模型指通过在海量数据上进行预训练,能够适应多种下游任务的模型,具有强大的泛化能力、自监督学习功能和精度突破性能。其已经在自然语言处理、计算机视觉、气象预报等多个领域取得了令人瞩目的成果。大模型的发展是大势所趋,未来将会助推数字经济,为智能化升级带来新范式
资源推荐
资源详情
资源评论


















面向 AI 大模型的智算中心
网络演进白皮书
(2023 年)
中国移动通信研究院

目 录
前 言
...................................................................................................................................................
3
1. AI 业务发展趋势
............................................................................................................................
4
1.1. 人工智能技术发展趋势
.....................................................................................................
4
1.2. 人工智能业务发展趋势
.....................................................................................................
6
1.3. 人工智能政策发展趋势
.....................................................................................................
7
2. AI 大模型对网络的需求
................................................................................................................
8
2.1. 超大规模组网需求
.............................................................................................................
8
2.2. 超高带宽需求
.....................................................................................................................
9
2.3. 超低时延及抖动需求
.......................................................................................................
10
2.4. 超高稳定性需求
...............................................................................................................
10
2.5. 网络自动化部署需求
.......................................................................................................
11
3. 当前网络能力与业务需求的差异点
..........................................................................................
11
3.1. 规模差距分析
...................................................................................................................
12
3.2. 带宽差距分析
...................................................................................................................
13
3.3. 稳定性差距分析
...............................................................................................................
14
3.4. 时延、抖动差距分析
.......................................................................................................
15
3.5. 自动化能力差距分析
.......................................................................................................
16
4. 面对差异网络应对举措
..............................................................................................................
17
4.1. 大规模组网关键技术
.......................................................................................................
17
4.1.1 网络设备硬件本身改进
........................................................................................
17
4.1.2 端网协同的流控改进
............................................................................................
19
4.2. 超高带宽关键技术
...........................................................................................................
20
4.2.1 网络-应用协同设计释放算力
...............................................................................
20
4.2.2 链路负载均衡优化技术
........................................................................................
20
4.2.3 低功耗的 400G/800G 互联方案
............................................................................
22
4.3. 超高稳定性关键技术
.......................................................................................................
22
4.3.1 基于硬件的快速感知能力
....................................................................................
23
4.3.2 基于硬件的快速收敛能力
....................................................................................
23
4.3.3 层次化的网络故障自愈能力
................................................................................
23
4.4. 超低时延关键技术
...........................................................................................................
24
4.4.1 集合通讯算法和网络拓扑协同
............................................................................
24
4.4.2 DPU 硬件卸载
..........................................................................................................
24
4.4.3 静态转发时延优化
................................................................................................
25
4.5 自动化关键技术
.................................................................................................................
25
5. 总结和展望
..................................................................................................................................
26
术语定义
...........................................................................................................................................
27
缩略词表
...........................................................................................................................................
27

前 言
人工智能是数字经济的核心驱动力,AI 大模型是人工智能的新引擎。AI 大模型指通过
在海量数据上进行预训练,能够适应多种下游任务的模型,具有强大的泛化能力、自监督学
习功能和精度突破性能。其已经在自然语言处理、计算机视觉、气象预报等多个领域取得了
令人瞩目的成果。大模型的发展是大势所趋,未来将会助推数字经济,为智能化升级带来新
范式。
近年来,随着 ChatGPT 等生成式人工智能(AIGC)的突飞猛进,全球范围内的经济价
值预计将达到数万亿美元。尤其在中国市场,生成式 AI 的应用规模有望在 2025 年突破 2000
亿元。这一巨大的潜力不仅吸引着业内领军企业竞相推出万亿、10 万亿参数量级别的大模
型,而且对底层 GPU 支撑规模提出了更高的要求,达到了万卡级别。 然而,如何满足如此
庞大规模的训练任务,对网络的规模、性能、可靠性和稳定性等方面提出了前所未有的挑战。
以 GPT3.5 为例,其训练过程依赖于微软专门建设的 AI 超算系统,由 1 万个 V100 GPU 组
成的高性能网络集群,总计算力消耗约为 3640 PF-days。在这种情况下,寻求提供极致高性
能网络已成为人工智能领域的重要研究方向之一。
本白皮书将从 AI 业务发展的历程出发,深入研究大模型对网络能力的需求,分析当前
网络与业务需求的差距,并探索网络技术发展趋势以弥补这一差距。我们希望,通过本白皮
书的研究和分析,为未来面向 AI 大模型的智能计算中心网络发展提供有益的参考和启示。
本白皮书由中国移动研究院牵头编制,联合编制单位:华为技术有限公司、锐捷网络股
份有限公司、思博伦通信科技(北京有限公司)、中兴通信股份有限公司、上海云脉芯联科
技有限公司、星云智联科技有限公司、中科驭数(北京)科技有限公司、博通公司、是德科技
(中国)有限公司、北京大禹智芯科技有限公司
本白皮书的版权归中国移动研究院所有,并受法律保护。转载、摘编或利用其它方式使
用本白皮书文字或者观点的,应注明来源。

1. AI 业务发展趋势
1.1.
人工智能技术发展趋势
人工智能(AI)是一种使计算机和机器能够表现出智能和类似人类思维的能力的技术
和方法论。它通常包括学习与推理、语言和语音识别、视觉感知、自动化控制等多个领域。
自从 20 世纪 50 年代,人工智能的研究开始以来,AI 已经走了一个漫长的历程,经历了许
多发展与进步,也经历了漫长的寒冬。
图
1-1
人工智能发展时间轴
符号主义与专家系统(1956 年-1980 年),AI 领域的创始人之一约翰·麦卡锡在 1956
年提出了“人工智能”这一术语后,AI 的符号推理阶段就正式开始了。符号推理阶段的主
要发展是建立起了人工智能的推理基础。在这个阶段,人们将人类智能中的逻辑进行了形式
化,创造了一种称为“推理形式”的数学表示方法。
联接主义与机器学习(1980 年-2012 年),AI 开始了一些深度学习和神经网络方面的
探索,这两种技术是使用机器学习算法进行自动学习和推理的两种方式。1986 年,Rumelhart
和 McClelland 的研究进一步加强了神经网络代表的连接主义观点,这标志着 AI 进入了“连
接主义时代”。
深度学习(2012 年-2017 年),20 世纪 50 年代,人们开始尝试模拟人脑的神经网络,
以解决一些计算机视觉和语音识别问题。后来的时间,神经网络由于计算复杂度和可解释性
等问题,经历了长时间的寒冬。直到 2012 年,Hinton 等人提出了深度学习中一种新的神经
网络结构--卷积神经网络,并在 ImageNet 图像识别竞赛中获得了显著的成果。卷积神经网
络具有重大的意义,推动了计算机视觉和深度学习的发展,并开拓了探索神经网络的新领域。
2016 年基于深度学习的 AlphaGo 战胜围棋世界冠军,再次点燃人们对深度学习探索的热情。
Transformer 模型预训练(2017 年-2022 年), 2017 年谷歌发布论文《Attention Is All You
Need》,Transformer 模型引入了一种新的机制——注意力机制(Attention),用于学习不
同位置的词汇之间的关联关系,从而更好地表征大型语言文本中的语义和词法关系。在

Transformer 中,可以使用多头注意力机制来学习输入序列中不同的信息,并根据这些信息
进行分类、生成或其他任务。
Transformer 架构由多个堆叠的自注意力层和前馈神经网络层组成,这种设计使得它在
构造大型深度神经网络时具有巨大优势。自注意力机制解决了长序列输入的信息传递问题,
允许不同位置的单词或符号与其他单词或符号之间产生交互,从而更好地捕捉序列之间的依
赖关系。这意味着 Transformer 可以处理极长的文本序列,而不会产生梯度消失或爆炸问题。
同时,Transformer 架构具有并行计算的能力,可以同时处理输入序列的不同部分。这样可
以更快地训练和推理大型深度神经网络,尤其是在使用分布式计算和 GPU 并行计算的情况
下。由于它的特殊结构和设计,Transformer 架构适合构造大型神经网络,由此开启了深度
学习大模型时代。大模型也被称为基础模型(Foundation Model),其通常定义为:参数规
模较大(亿级)并使用 Transformer 结构,在大规模无标注语料进行自监督训练后,可以赋
能一系列下游任务的模型。
BERT 和 GPT 是两种最知名的基于 Transformers 的自然语言处理模型。虽然都是基于
Transformers,但 GPT 只使用了 Transformer 的解码器部分,而 BERT 使用了双向 Transformer
的编码器部分;GPT 是从左到右建模文本,确保下一个预测是来自上下文的正确,而 BERT
是双向建模文本,不仅考虑上下文,还考虑了文本的未来信息。由于建模方式的不同使得
GPT 更适用于自然语言生成任务,如文本摘要、对话生成等,而 BERT 更适用于下游任务,
如自然语言理解、文本分类、问答系统等。
2018 年 10 月,Google 团队发布了 BERT 模型。2019 年 7 月,华盛顿大学研究团队在
BERT 模型上进行了改进,提出了 RoBERTa 模型。RoBERTa 采用了更大的训练数据集和更
长的训练时间,并且修改了模型的 Mask 机制,取得了更好的效果。2020 年 2 月,Google
团队提出了 ALBERT 模型,这是 BERT 模型的一个轻量级变体。ALBERT 通过参数共享和
跨层参数连接的方式减少了模型大小,同时在性能上与 BERT 相当甚至略有提升。BERT 模
型经过不断的改进和迭代,逐渐成为现代自然语言处理领域中的基础和标准之一。
2018 年,OpenAI 团队发布了 GPT-1,它使用了 Transformer 架构,采用了无监督学习
的方法进行训练,其目标是预测下一个词语。该模型使用了 8 个 Transformer 编码器层和 12
个 Transformer 解码器层。它被证明在自然语言生成任务中比较有效。2019 年,GPT-2 被提
出,相比 GPT-1,GPT-2 具有更多的参数和更高的预测能力。它使用了 48 个 Transformer 编
码器层和 12 个 Transformer 解码器层,参数数量达到了 1.5 亿个。2020 年,OpenAI 团队提
出了 GPT-3,它是目前最大的语言模型之一,拥有 1750 亿个参数。相比于 GPT-2,在生成
剩余29页未读,继续阅读
资源评论


cfh118322
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制
