没有合适的资源?快使用搜索试试~ 我知道了~
GRAPHCORE 第二代 IPU.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 41 浏览量
2024-04-16
08:20:49
上传
评论
收藏 1.41MB PDF 举报
温馨提示
试读
11页
GRAPHCORE 第二代 IPU.pdf
资源推荐
资源详情
资源评论
Page 1 MK2: The Graphcore 2
nd
Generation IPU July 2020
Copyright ©2020 Moor Insights & Strategy
GRAPHCORE 第二代 IPU
简介
总部位于英国的初创公司 Graphcore 于 2018 年推出了用于人工智能加速的智能处理器
(IPU)。如今 Graphcore 推出了 IPU-Machine。这个第二代平台具有更强大的处理能
力、更多的内存和内置的可扩展性,可以应对极大的并行处理工作负载。这家资金雄厚的
创业公司拥有一流的工程师、顾问和投资者,估值接近 20 亿美元。它的第一代硬件目前
已在微软 Azure 云以及 Dell-EMC 服务器中使用,两者皆为其投资者。Graphcore 现在将
自己的未来倾注在第二代平台上:一个目前在业界独一无二的、具有广泛扩展性的即插即
用构建块。
图 1:Graphcore IPU-Machine
Graphcore IPU-Machine 包括四个 IPU、集成的 100GbE 横向扩展结构、PCIe 和附加的 DDR 内存。每个
1U 设备都可以提供高达 1 PFLOP 的 AI 性能和 450GB 的存储。
Source: Graphcore
来源:
Graphcore
Page 2 MK2: The Graphcore 2
nd
Generation IPU July 2020
Copyright ©2020 Moor Insights & Strategy
在该公司 Poplar 软件栈的支持下,该新平台的亮点在于 4 通道 IPU-Machine 设备中的 7
纳米 Colossus MK2,并且可在 1024 个机架上扩展到最多 64,000 个 IPU。完全配置的
AI 超级计算机可以提供大约 16 EFLOPS 的 AI(16 位 FP)性能,与第一代产品一样,
该公司的重点是实现对大规模高性能并行计算的简化。
本研究论文将探索这个新平台,并将之与其不断增加的潜在竞争对手进行比较,评估其优
势和劣势。
THE COLOSSUS MK2 IPU (GC200)
由台积电制造的新 MK2 部件是大规模并行的 594 亿晶体管处理器,可跨 1472 个核提供
约 250 万亿次每秒运算(TOPS),并通过 2.8Tb/秒 的低时延结构互连 900MB 的处理器
内存储。MK1 一代的绝大多数架构设计都可以延续到 MK2 平台,其处理图块包含核和片
上 SRAM,它们在同一结构上互连,可以向片外扩展,以与其他 IPU 域通信。
在将原始 IPU 设计缩小到 7 纳米时,Graphcore 的设计者选择性能和内存的最大化,而
非降低成本,这与人们普遍的认知相一致,即:在数据中心训练应用中,AI 应用程序主
要在性能上受限,对成本并不敏感;而边缘 AI 推理处理对成本和功耗更为敏感。因此,
与之前的产品相比,MK2 实现了核数量增加 20%,片上 SRAM 增加 333%,可扩展性提
升 16 倍。新的系统软件可以增强可扩展性、部署和管理。
在系统级别上,高达 448GB 的“流存储”DRAM 补充了片上 IPU 内存。MK2 IPU 还通
过实施由 Graphcore 开发的一组称为 AI-Float 的新颖的浮点实施技术来提高性能。AI-
Float 技术用于调整 AI 计算的能量和性能,使用标准 IEEE FP16 格式,
(Graphcore?)以多种方式对 AI-Float 进行了优化,其随机舍入特性可以使 FP16 能够
匹配主权重上的 FP32 性能,使 FP16.16 可以匹配 FP16.32,进行正向和反向传播(每
个芯片提供 250 TFlop/秒的运算)。该芯片还支持 62.5 TFlop/秒单精度 FP32。
许多、甚至于大多数 AI 模型产生具有高度稀疏性的模型参数。不乘以零元素可以将性能
提高两倍或更多。MK2 具有针对稀疏模式的新稀疏性优化,包括块、标量、静态和动态
稀疏性。挑战在于,需要提早知道什么时候不做乘法。Graphcore 能够将稀疏性优化有效
地编译到计算图顶点小代码中。
Page 3 MK2: The Graphcore 2
nd
Generation IPU July 2020
Copyright ©2020 Moor Insights & Strategy
THE IPU MACHINE (M2000)
对于加速器相而言,将 AI 硅片作为系统而不是芯片来交付已变得越来越普遍,因为与定
制化的依赖于 OEM 或 ODM 的设计和测试相比,它可以将上市时间缩短六个月至一年。
Graphcore 在一个双 IPU PCIe 主板上实现了 MK1 硅片的产品化,以简化采用并缩短上
市时间。借助 MK2 版本,Graphcore 又迈出了重要的一步,交付了包含四个 IPU 设备的
装置,称为 IPU-Machine (M2000)。1U 披萨盒可通过搭载了 ROCE(聚合以太网上
的 RDMA)的 100Gb 以太网访问,以实现低时延访问。使用以太网避免了 PCIe 连接器
的瓶颈和成本,并实现了灵活的 CPU 来加速比率。
盒中包括集成横向扩展网络,使用户能够轻松地从小型开发系统扩展到大规模机架部署,
所有这些均通过标准网络进行联网,且成本低于使用 InfiniBand。IPU 结构通过以太网隧
道连接图块 tile 和其它 IPU,无论部署的大小如何,都保持相同的编程模型和批量同步处
理(BSP)同步。IPU-Machine 标价$ 32,450,听起来可能很昂贵,但是该平台的性能与
和竞争对手进行的比较充分说明这款平台代表了很高的价值。
除了即插即用扩展功能外,IPU-Machine 还通过可供四个 IPU 使用的 DDR 内存来补充处
理器内存储。客户对 MK1 的反馈表明,下一代将需要多得多的内存来运行正在开发的极
大型的模型。新的 IPU-Machine 提供 450 GB 的内存来处理这些更大的模型。据
OpenAI.org 称,由于模型大小每 3.5 个月增加一倍,因此该内存架构可能会改变游戏规
则,提供的带宽是高带宽内存(HBM2)所能提供的带宽的 100 倍,容量是其 10 倍,与
此同时成本显著降低。
IPU-Machine 的存储模型也与 CPU 或许多 AI 加速器(例如 GPU)中的存储模型有很大
不同。Poplar Graph Compiler 不需要在存储层次结构中将数据和代码从主机内存存储区
交换到加速器的存储,而是在图块 tile 上的存储和 IPU-Machine 上的 DDR 内存中创建确
定性的代码-存储关系。计算图顶点中的 IPU 图块 tile 知道数据驻留的位置并直接访问
它。没有缓存,没有交换,没有预取,也没有因此增加延迟。实际上,IPU-Machine 可
以在独立模式下用于推理处理,而无需连接到主机服务器。而且,由于在 MK1 中首次引
入的 BSP 模型可以同时编译计算和通信,因此与并行处理常用的传统消息处理或共享存
储结构相比,网络通信费用可以保持在最低水平。IPU-Machine 包括一个可以访问
DRAM 的网关芯片,两个 100Gbps IPU-Fabric Link,一个用于标准 SmartNIC 的 PCIe
插槽,两个 1GbE OpenBMC 管理接口,以及可以访问一个 M.2 插槽。
剩余10页未读,继续阅读
资源评论
百态老人
- 粉丝: 1750
- 资源: 2万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功