没有合适的资源?快使用搜索试试~ 我知道了~
国泰君安-通信设备及服务行业DGXGH200算力网络解析:AI超算浑然一体,光互联地位显著提升-230602.pdf
需积分: 0 0 下载量 70 浏览量
2023-06-19
09:21:19
上传
评论
收藏 1.74MB PDF 举报
温馨提示
试读
11页
国泰君安-通信设备及服务行业DGXGH200算力网络解析:AI超算浑然一体,光互联地位显著提升-230602.pdf
资源推荐
资源详情
资源评论
请务必阅读正文之后的免责条款部分
[Table_MainInfo]
[Table_Title]
2023.06.02
AI 超算浑然一体,光互联地位显著提升
——DGX GH200 算力网络解析
王彦龙(分析师)
黎明聪(研究助理)
010-83939775
0755-23976500
wangyanlong@gtjas.com
limingcong@gtjas.com
证书编号
S0880519100003
S0880121080014
本报告导读:
超算中心趋于一个整体,光互联重要性快速提升;GH200性能提升原因在存储,H100
仍为主流场景应用;芯片光模块比为 1:9,比 DGX H100 组网更高。
摘要:
[Table_Summary]
超算中心趋于一个整体,光互联重要性快速提升。Nvidia CEO 黄仁
勋在大会上反复提到,未来的超算数据中心将表现的越来越像一个超
级计算机,正如这次 DGX GH200 系统可以将 256 个 GPU 无缝连接,
使其性能等于一个超大号的 GPU。DGX GH200 里面采用了 242.4 公
里的光纤,证明在高速互联领域,对光通信器件、模块的应用将大大
增加,光进铜退的趋势在服务器外部的层级趋势越来越明显。
GH200 性能提升原因在存储,H100仍为主流场景应用。集群性能的
提升主要有算力本身、网络、存储三大要素。市场担忧 DGX GH200
对 GPT3 训练性能提升 2.2x,不利光模块比例提升。但算力层面,单
颗 GH 芯片和 H100 芯片 FP8 浮点算力没有差异。存储层面,DGX
GH200 内部 GPU 和 CPU 的连接方式与 DGX H100 不同,其高速触
达的存储容量可以大幅提升。我们观察到对于同样消耗数十 TB内存
级别的操作,存储瓶颈越明显,DGX GH200 系统表现就比 DGX H100
集群越优越。因此,传统 GPT3、GPT4 等主流大模型下,DGX H100
集群(NVLink 联网)与 DGX GH200 系统没有明显差异,因为存储、
网络、算力都不是瓶颈。
芯片光模块比为 1:9,比 H100 NVLink 组网更高。这个数字比 DGX
H100 使用 NVLink 组网下还要高 2 倍,主要的差距在于是 DGX H100
服务器内到服务器外做了 2:1 的收敛,8 个 GPU仅用了 4 个 NVSwitch
芯片,无法做到 1:1 无阻塞的传输。而 GH200 是 6 个 NVSwitch 芯片
对应 8 个 GPU,可以实现胖树架构,因此这个光模块比例约比 256
个 H100 NVLink 组网方案多一倍。
投资建议:超算中心与传统云中心相比,网络相关投入比例将继续增
加,重点关注数通产业链和算力网络链:1)数通光模块核心标的:
新易盛、天孚通信、光迅科技;2)稀缺的光芯片突破企业:光库科
技,仕佳光子;3)有望突破的模块企业,受益标的:剑桥科技、博
创科技、华工科技。
风险提示:DGX GH200 推广不及预期,AI 训练需求不及预期
[Table_Invest]
评级:
增持
上次评级:
增持
[Table_subIndustry]
细分行业评级
[Table_DocReport]
相关报告
通信设备及服务《英伟达 AI 业务指引超预
期,移动开启新一轮基站招采》
2023.05.28
通信设备及服务《北京开启 AI 创新计划,
中国电信发布算力套餐》
2023.05.21
通信设备及服务《云服务商正组建 GPU 大
军,800G 需求更进一步》
2023.05.14
通信设备及服务《数字经济和 AI 的轮动,
预期和估值双低板块的反转》
2023.05.07
通信设备及服务《继续看好算力产业链,移
动开展 5G 地空试验》
2023.05.07
行
业
专
题
研
究
股
票
研
究
证
券
研
究
报
告
[Table_industryInfo]
通信设备及服务
下载日志已记录,仅供内部参考,股票报告网
行业专题研究
请务必阅读正文之后的免责条款部分 2 of 11
目 录
1. DGX GH200 光互联比例大幅增加 ................................................... 3
1.1. DGX GH200 应用场景特定,内存容量大幅提升 ..................... 3
1.2. DGX GH200 和 DGX H100 集群性能差异并非算力造成 .......... 5
1.3. DGX GH200 芯片与光模块比例如何? .................................. 7
1.3.1. 芯片接入层流量的测算 .................................................... 7
1.3.2. L1 层 Nvlink 交换机层级 .................................................. 8
1.3.3. L2 层 NVLink 交换机 ....................................................... 9
1.3.4. 总结:单颗芯片:800G 光模块比例=1:9 .......................... 9
2. 投资建议 ................................................................................... 10
3. 相关标的盈利预测 ..................................................................... 10
下载日志已记录,仅供内部参考,股票报告网
行业专题研究
请务必阅读正文之后的免责条款部分 3 of 11
1. DGX GH200 光互联比例大幅增加
事件回顾:Nvidia 创始人黄仁勋在台北 Nvidia Computex 2023 研究中
宣布发布 DGX GH200 产品,该产品通过将 256 个 Grace Hopper 超级芯
片(下称 GH 芯片)连接成一个新型 AI 超级计算机,其 GPU 存储容量
144TB,在历代里面最高,同时可以提供 1 EFlops 的 FP8 Transform
Engine 算力。
图 1:DGX GH200 系统拓扑架构图
数据来源:Nvidia
发布会以来,DGX GH200 的网络结构、DGX GH200 的应用场景、DGX GH200
的算力是否提升成为市场最关注的焦点,我们在本报告尝试作出自己的
理解和解答。
1.1. DGX GH200 应用场景特定,内存容量大幅提升
市场关注:DGX GH200 的性能优势体现在哪里,可能应用在什么场景,
是否会对 DGX H100 产生替代效应。
从随之发布的技术博客内容看,DGX GH200 目标使用场景为“存在 GPU
内存容量瓶颈的 AI 和 HPC 应用。”博客中强调,许多主流的 AI 和 HPC 应
用负载实际上可以完全放在一个单独的 DGX H100 服务器中,对于这样
的工作负载,DGX H100 是最具有性价比的训练方案。而对于其他的工作
负载,例如深度学习推荐模型,需要 TB 级别的嵌入表,以及 TB 级别的
图像神经网络训练模型,或者大型的数据分析负载(数十 TB 级别的 join、
排序),可以看到 DGX GH200 对于大型记忆模型的表现比 DGX H100 集群
(Infiniband 组网)是要提高 5-6x。
图 2 :DGX GH200 对于超大型耗内存的模型训练是最快
的
图 3: DGX 代际里 GH200 容量最大
下载日志已记录,仅供内部参考,股票报告网
剩余10页未读,继续阅读
资源评论
weishaoonly
- 粉丝: 132
- 资源: 1383
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功