GRAPHCORE第二代IPU.pdf_Graphcore存储资源-CSDN文库

版权申诉

127 浏览量 2024-04-16 08:20:49 上传评论收藏 1.41MB PDF 举报

### GRAPHCORE 第二代 IPU 知识点解析 #### 一、概述 Graphcore是一家总部位于英国的初创公司，专注于开发专为人工智能（AI）加速设计的智能处理器（Intelligence Processing Unit, IPU）。自2018年推出首款IPU以来，Graphcore在2020年7月发布了其第二代IPU——MK2，以及基于此的IPU-Machine平台。 #### 二、第二代IPU-Machine特性 - **IPU-Machine M2000**: 该平台由四个IPU组成，每个IPU都拥有强大的处理能力、大量的内存以及内置的可扩展性。 - **硬件规格**: - 每个1U设备能够提供高达1 PFLOP的AI性能和450GB的存储空间。 - 通过集成的100GbE横向扩展结构和PCIe接口，可以实现快速的数据传输。 - 支持高达448GB的“流存储”DRAM，以补充片上IPU内存。 - **Colossus MK2 IPU (GC200)**: - 这是一款大规模并行的594亿晶体管处理器，采用7纳米制程工艺，由台积电制造。 - 提供约250万亿次每秒运算（TOPS），通过2.8Tb/秒的低延迟结构互连900MB的处理器内存储。 - 与第一代相比，核心数量增加了20%，片上SRAM增加了333%。 - **AI-Float技术**: - 这是一项创新的浮点实现技术，旨在提高AI计算的能量效率和性能。 - 使用标准IEEE FP16格式，通过随机舍入特性使得FP16能够匹配FP32的性能。 - 支持250 TFlop/秒的半精度FP16运算速度，以及62.5 TFlop/秒的单精度FP32运算速度。 #### 三、系统软件与可扩展性 - **Poplar软件栈**: - 作为Graphcore的核心软件组件之一，Poplar提供了高级编程接口，简化了开发者的工作流程。 - 支持多种深度学习框架，并且能够自动优化模型以适应IPU的硬件特性。 - **可扩展性**: - MK2 IPU-Machine可以在1024个机架上扩展到最多64,000个IPU。 - 完全配置的AI超级计算机可以提供大约16 EFLOPS的AI性能（16位FP）。 - 新的系统软件增强了可扩展性、部署和管理功能。 #### 四、稀疏性优化 - **针对稀疏性的优化**: - 许多AI模型会产生具有高度稀疏性的模型参数，这意味着很多参数值为零。 - MK2 IPU-Machine支持多种稀疏性优化，包括块稀疏性、标量稀疏性、静态稀疏性和动态稀疏性。 - 通过编译器技术提前识别出这些零元素，从而避免不必要的乘法操作，显著提高了性能。 #### 五、市场定位与竞争分析 - **市场定位**: - Graphcore将重点放在了数据中心和高性能计算领域，在这些场景中，AI应用程序对性能的需求远高于成本敏感度。 - 边缘AI推理处理则更加注重成本和功耗，这是MK2 IPU的一个次要关注点。 - **潜在竞争对手**: - NVIDIA: 在GPU市场上占据主导地位，同时也推出了专门针对AI加速的Tensor Core技术。 - Google: 通过其TPU（Tensor Processing Unit）产品线，在云端AI加速领域有着广泛的影响力。 - Intel: 通过收购Nervana Systems，进入了AI加速器领域，提供了一系列针对AI训练和推理的解决方案。 #### 六、总结 Graphcore推出的第二代IPU-Machine M2000是一个具有强大性能和高可扩展性的平台，旨在解决大规模并行处理工作负载的需求。通过技术创新如Colossus MK2 IPU和AI-Float技术，以及针对稀疏性的优化，Graphcore能够在性能方面取得显著的进步。虽然面临来自NVIDIA、Google和Intel等公司的激烈竞争，但凭借其独特的技术优势和不断扩大的生态系统，Graphcore有望在AI加速领域占据一席之地。

资源推荐

资源详情

资源评论

Page 1 MK2: The Graphcore 2

Generation IPU July 2020

GRAPHCORE 第二代 IPU

简介

总部位于英国的初创公司 Graphcore 于 2018 年推出了用于人工智能加速的智能处理器

（IPU）。如今 Graphcore 推出了 IPU-Machine。这个第二代平台具有更强大的处理能

力、更多的内存和内置的可扩展性，可以应对极大的并行处理工作负载。这家资金雄厚的

创业公司拥有一流的工程师、顾问和投资者，估值接近 20 亿美元。它的第一代硬件目前

已在微软 Azure 云以及 Dell-EMC 服务器中使用，两者皆为其投资者。Graphcore 现在将

自己的未来倾注在第二代平台上：一个目前在业界独一无二的、具有广泛扩展性的即插即

用构建块。

图 1：Graphcore IPU-Machine

Graphcore IPU-Machine 包括四个 IPU、集成的 100GbE 横向扩展结构、PCIe 和附加的 DDR 内存。每个

1U 设备都可以提供高达 1 PFLOP 的 AI 性能和 450GB 的存储。

Source: Graphcore

来源：

Graphcore

Page 2 MK2: The Graphcore 2

Generation IPU July 2020

在该公司 Poplar 软件栈的支持下，该新平台的亮点在于 4 通道 IPU-Machine 设备中的 7

纳米 Colossus MK2，并且可在 1024 个机架上扩展到最多 64,000 个 IPU。完全配置的

AI 超级计算机可以提供大约 16 EFLOPS 的 AI（16 位 FP）性能，与第一代产品一样，

该公司的重点是实现对大规模高性能并行计算的简化。

本研究论文将探索这个新平台，并将之与其不断增加的潜在竞争对手进行比较，评估其优

势和劣势。

THE COLOSSUS MK2 IPU (GC200)

由台积电制造的新 MK2 部件是大规模并行的 594 亿晶体管处理器，可跨 1472 个核提供

约 250 万亿次每秒运算（TOPS），并通过 2.8Tb/秒的低时延结构互连 900MB 的处理器

内存储。MK1 一代的绝大多数架构设计都可以延续到 MK2 平台，其处理图块包含核和片

上 SRAM，它们在同一结构上互连，可以向片外扩展，以与其他 IPU 域通信。

在将原始 IPU 设计缩小到 7 纳米时，Graphcore 的设计者选择性能和内存的最大化，而

非降低成本，这与人们普遍的认知相一致，即：在数据中心训练应用中，AI 应用程序主

要在性能上受限，对成本并不敏感；而边缘 AI 推理处理对成本和功耗更为敏感。因此，

与之前的产品相比，MK2 实现了核数量增加 20%，片上 SRAM 增加 333%，可扩展性提

升 16 倍。新的系统软件可以增强可扩展性、部署和管理。

在系统级别上，高达 448GB 的“流存储”DRAM 补充了片上 IPU 内存。MK2 IPU 还通

过实施由 Graphcore 开发的一组称为 AI-Float 的新颖的浮点实施技术来提高性能。AI-

Float 技术用于调整 AI 计算的能量和性能，使用标准 IEEE FP16 格式，

（Graphcore？）以多种方式对 AI-Float 进行了优化，其随机舍入特性可以使 FP16 能够

匹配主权重上的 FP32 性能，使 FP16.16 可以匹配 FP16.32，进行正向和反向传播（每

个芯片提供 250 TFlop/秒的运算）。该芯片还支持 62.5 TFlop/秒单精度 FP32。

许多、甚至于大多数 AI 模型产生具有高度稀疏性的模型参数。不乘以零元素可以将性能

提高两倍或更多。MK2 具有针对稀疏模式的新稀疏性优化，包括块、标量、静态和动态

稀疏性。挑战在于，需要提早知道什么时候不做乘法。Graphcore 能够将稀疏性优化有效

地编译到计算图顶点小代码中。

Page 3 MK2: The Graphcore 2

Generation IPU July 2020

THE IPU MACHINE (M2000)

对于加速器相而言，将 AI 硅片作为系统而不是芯片来交付已变得越来越普遍，因为与定

制化的依赖于 OEM 或 ODM 的设计和测试相比，它可以将上市时间缩短六个月至一年。

Graphcore 在一个双 IPU PCIe 主板上实现了 MK1 硅片的产品化，以简化采用并缩短上

市时间。借助 MK2 版本，Graphcore 又迈出了重要的一步，交付了包含四个 IPU 设备的

装置，称为 IPU-Machine （M2000）。1U 披萨盒可通过搭载了 ROCE（聚合以太网上

的 RDMA）的 100Gb 以太网访问，以实现低时延访问。使用以太网避免了 PCIe 连接器

的瓶颈和成本，并实现了灵活的 CPU 来加速比率。

盒中包括集成横向扩展网络，使用户能够轻松地从小型开发系统扩展到大规模机架部署，

所有这些均通过标准网络进行联网，且成本低于使用 InfiniBand。IPU 结构通过以太网隧

道连接图块 tile 和其它 IPU，无论部署的大小如何，都保持相同的编程模型和批量同步处

理（BSP）同步。IPU-Machine 标价$ 32,450，听起来可能很昂贵，但是该平台的性能与

和竞争对手进行的比较充分说明这款平台代表了很高的价值。

除了即插即用扩展功能外，IPU-Machine 还通过可供四个 IPU 使用的 DDR 内存来补充处

理器内存储。客户对 MK1 的反馈表明，下一代将需要多得多的内存来运行正在开发的极

大型的模型。新的 IPU-Machine 提供 450 GB 的内存来处理这些更大的模型。据

OpenAI.org 称，由于模型大小每 3.5 个月增加一倍，因此该内存架构可能会改变游戏规

则，提供的带宽是高带宽内存（HBM2）所能提供的带宽的 100 倍，容量是其 10 倍，与

此同时成本显著降低。

IPU-Machine 的存储模型也与 CPU 或许多 AI 加速器（例如 GPU）中的存储模型有很大

不同。Poplar Graph Compiler 不需要在存储层次结构中将数据和代码从主机内存存储区

交换到加速器的存储，而是在图块 tile 上的存储和 IPU-Machine 上的 DDR 内存中创建确

定性的代码-存储关系。计算图顶点中的 IPU 图块 tile 知道数据驻留的位置并直接访问

它。没有缓存，没有交换，没有预取，也没有因此增加延迟。实际上，IPU-Machine 可

以在独立模式下用于推理处理，而无需连接到主机服务器。而且，由于在 MK1 中首次引

入的 BSP 模型可以同时编译计算和通信，因此与并行处理常用的传统消息处理或共享存

储结构相比，网络通信费用可以保持在最低水平。IPU-Machine 包括一个可以访问

DRAM 的网关芯片，两个 100Gbps IPU-Fabric Link，一个用于标准 SmartNIC 的 PCIe

插槽，两个 1GbE OpenBMC 管理接口，以及可以访问一个 M.2 插槽。

剩余10页未读，继续阅读

评论收藏

内容反馈

版权申诉

百态老人

粉丝: 0
资源: 2万+

GRAPHCORE 第二代 IPU.pdf

最新资源

GRAPHCORE 第二代 IPU.pdf

Graphcore采用新思科技Design Platform设计Colossus芯片，加速AI计算.pdf

IPU显示总结文档pdf

IPU：为AI处理器带来了一种颠覆性架构.pdf

GRAPHCORE软件栈：为扩展而构建.pdf

IPU显示总结.rar_IPU_FREAMWORK_imx6 ipu rootfs_imx6 ipu原理_imx6 同显ipu_

Graphcore：将创新权利移交给AI开发者.docx

IMX6Q-ipu-examples.tar.gz

实力搭上阿里、百度 走近这家AI芯片独角兽的硬核技术.pdf

03 臧锐-Intel IPU在云数据中心中的实践与探索.pdf

IPU与GPU的“问题”!——玩家C.G对话iGame首席研发工程师.pdf

IPU80R3K3P7 英飞凌芯片 INFINEON 中文版规格书手册.pdf

IPU80R1K2P7 英飞凌芯片 INFINEON 中文版规格书手册.pdf

IPU80R750P7 英飞凌芯片 INFINEON 中文版规格书手册.pdf

IPU60R2K1CE 英飞凌芯片 INFINEON 中文版规格书手册.pdf

IPU60R1K5CE 英飞凌芯片 INFINEON 中文版规格书手册.pdf

IPU80R2K4P7 英飞凌芯片 INFINEON 中文版规格书手册.pdf

三安集成化合物半导体芯片已小批量生产.pdf

公司计算机信息系统相关知识.pdf

bat文件，批处理，cmd命令小工具，ip 地址扫描.bat ip.bat，定时关机.bat，隐藏文件.bat，显示文件.b

I.MX6Q_IPU相关

ipu-di.rar_V2

飞思卡尔 I.MX6Q-ipu视频流格式转换

IMX6Q-ipu视频格式转化-源码库.tar.gz

嵌入式岗位笔试面试真题讲解2-3.pdf

类脑计算深度产业报告.pdf

HPE ProLiant DL380/DL360 Gen9 System ROM 3.08 - P89

i.MX353_i.MX357：多媒体应用处理器.pdf

TI-DRA718.pdf

IPU总结报告v1.0

最新资源

实力搭上阿里、百度走近这家AI芯片独角兽的硬核技术.pdf