首款自适应计算加速平台 (ACAP).pdf

所需积分/C币:50 2019-05-17 15:07:49 916KB PDF
收藏 收藏 1
举报

首款自适应计算加速平台 (ACAP) 中文版
S XILINX Versal:首款白适应计算加速平台(ACAP 标量处理 自适应性硬件 矢量处理 4 复杂算法与决策 特定域并行 不规则数 据结构的 信号处理 基因组测 复杂数学、卷积 序 视频与图像处 时延关键 理 型工作负 载实时控 制 传感器融合 预处理,川编程 图2:计算引擎的类型 为应对这一问题,赛灵思推出了一种革命性的新异构讣算架构,即自适应计算加速平台(ACAP),它囊括 三大方面优势,提供了与下一代可编程逻辑(P凵紧密耦合的世界一流的矢量与标量处理单元,将一切与 高带宽片上网络(NoC联通,提供对所有三种处坦单元类型的存储器映射访问。这种紧密耦合的混合架 构比任何一种单独架构的实现都支持更高的定制水平和性能提升。参见图3 矢 软件抽象工具 软件 软件 便件级编程 可编程 可编程 1。 可d dd巴 oooo 可编程 标量、序列处理 灵活的并行计算 ·侍定域并行 ·存储器带宽受限 ·高速本地存储器 高计算效率 固定流水线、固定 定制 固定与存储器带宽 标量引擎 自适应引擎 智能引擎 集成软件可编程接口 图3:异构集成三种类型的可编程引擎 WP50510)2018年10月2日 om china xilinx. col sⅫLINX Versal:首款白适应计算加速平台(ACAP 要想在性能上有如此大的提升,就必须对工具进行类似的大幅改进,并重点关注易用性。ACAP在设计 上不需要RTL流,可以开箱即用。ACAP原生支持软件编程,有助亍开展基亍C和基于框架的设计流 程。这些器件具有集成She,包括具有集成型DMA、N○C和集成型存储器控制器的高速缓存一致性主 机接口(PC|e或CCⅨX技术),从而避免了廾展RTL工作的要求。 新的ACAP架构在易用性方面也带来了显著改善。它通过一个统一的工具链为编程提供了一个完全集成 的存储器映射平台。赛灵思工具链面向各类开发人员支持多种输入方式。例如,某些应用(如A机器学 习推断)可以在框架级別(例如 Caffe、 Tensorflow)进行编码;其他应用可以使用预先优化的库(例 如5G无线电滤波器)用C语言进行编码。传统型硬件开发人员仍然可以通过传统的RIL输入流将他们 现有的RTL移植到ACAP 本白皮书审视了由传统的基亍CPU的计算模式开展变革的需要,详细探讨了其他选项,并介绍了赛灵思 ∨ersa|ACAP—业界首款异构计算平台。 AACP的三大主要优势包括: 1.软件可编程性—一能够通过软件抽象工具链快速开发优化应用 2.加速—一指标涵盖广泛的应用,包括人工智能、智能网络接口卡、高密度存储、5G无线、自动驾驶 汽车、高级模块化雷达,以及太比特光网络。 3.动态自适应重配置一能够重配置硬件,实现毫秒间加速新的负载。 推出ACAP:面向并行异构计算开展软硬件优化 ACAP的特点在于它结合了新一代标量引擎、自适应引擎和智能引擎。№oC通过存储器映射接凵将它们 相连,总带宽为1Tb/s+。除NoC之外,可编程逻辑(和集成型RAM块)支持的大量存储器带宽支持 可编程存储器架构针对单个计算任务进行层级优化(避免了其他基于高速缓存计算单元固有的高时延和 时延不确定性)。参见图4 WP50510)2018年10月2日 chinaxilinx.com S XILINX Versal:首款白适应计算加速平台(ACAP 标量引擎 自适应引擎 智能引擎 双核 引擎 ■■■■■■■■ 引擎 定制存储器 层级 片上网 直接 以太网 核 图4:赛灵思 Versal acaP功能图 标量引擎基于双核 Arm b corteⅹ-A72构建,与赛灵思上一代 Arm Corteⅹ-A53核相比,每核单线程性能提 高了2倍。高级的架构和7 nm finfet工艺的功耗相结合, DMIPS/WAT与先前的16mm实现方案相比提高 了2倍。立足赛灵思目前在汽车业大量部署的经验,经ASL-C认证的(1) UltraScale+ IMCortex-R5标量引擎 结合额外的系统级安仝特性向7nm迁移。 臼适应引擎由可编程逻辑和存储器单元组成,与新一代业界最快的可编程逻辑相连。除了支持原有设计 之外,还可以重新编程这些结构,以形成针对特定计算任务定制的存储器层级。与最新的GPU和CPU 相比,赛灵思智能引擎可实现更高的循环效率和更高的单位计算存储器带宽。这是优化边缘时延与功 耗,以及优化核心绝对性能的关键。 智能引擎由一组创新的超长指令字(LW)和单指令、多个数据(SⅠMD)处理引擎以及存储器构成,彼此间 的互联速度和存储带宽均为100πb/s。这使机器学习和数字信号处理(DSP)应用的性能提升了5-10倍。 如表1所示,这些计算函数以不同的比率和大小混合,构成了 Versa器件产品组合 1.https://china.xilinx.com/news/press/2018/xilinx-announces-availability-of-automotive-qualified-zyng-ultrascale-mpsoc-family.html WP50510)2018年10月2日 chinaxilinx.com S XILINX Versal:首款白适应计算加速平台(ACAP 表1: Versa器件产品组合,市场,以及重要特性 Versal产品组合 主要市场 重要特性: Versal ai core 数据中心、无线 最高水平智能引擎计筧 Versal AI edge 汽车、无线、广播、A8D 紧密热度范围下高效智能引数降至5W Versal ai rf 无线、A&D、有线 直接RF转换器与SD-FEC Versal prime 数据中心、有线 带集成型She|的基准平台 Versal premium 有线、测试与测量 搭载最高水平自适应引擎的高级平台, 112 G SerDes和600G集成IP Versal hbm 数捃中心、有线、测试与测量 带HBM的高级平台 赛灵思白适应计算加速平台(ACAP)结合了矢量、标量和自适应硬件单元,提供了三大引人注目的优 势 软件可编程性 异构加速 灵活应变能力 软件可编程性 由自适应芯片支持的自适应加速 Versal acap提供白适应加速硬件,易亍在软件中进行编程ε无论仼何应用类型,异构引擎都攴持软件 应用的最佳水平加速。智能引擎能够加速杋器学习和常用的经典DSP算法。自适应引擎内的新一代可编 程逻辑对并行算法进行加速。多核CP∪为剩余的应用需求提供了全面的嵌入式计算资源。整个 Versa 器件在设计上便于使用软件编程,无需具备硬件专业知识。参见图5 蜇件与平人品生太休系 加速引擎 白适应 智能 引擎 片上网络 持定域集成接口 图5: Versal acap顶层概念图 WP50510)2018年10月2日 chinaxilinx.com S XILINX Versal:首款自适应计算加速平台(ACAP 数据和A科学家可以部署在标准软件框架中构建的应用,并使用 Versal acap为应用实现 数个量级的加速。 软件应用廾发人员使用赛灵思统一软件廾发环境,无需硬件专业知识,就可以使用 Versal acap加速 任意软件应用 硬件设计人员可以继续使用Ⅴvado⑧ Design Suite进行设计,同时使用Ⅴersa平台的集成JO接 口和NoC缩短开发时间。 参见图6。 数据模型开发人 员,软件框架 硬件软件 软件 硬件设计协同设计人员 应用开发 用户 人员 人员 框架 硬件加速斥与 新型统一软件开发环境 工具 器件 图6: Versa平台软件形象概念 专用硬件,提高易用性和应用效率 白适应接凵逻辑实现了对片外接凵的轻松访问。这包括到外部主机处理器的标准接凵。在数据中心应用 中,软件应用通常驻留于主机CPU上,而不是嵌入式微处理器上。连接主机CPU和 Versa平台可编程 资源的接口称为 Shello集成型She包括完全兼容型高速缓存一致互联,适用于加速器(CCⅨ)或主机 ρ le gen4x16接口、DMA控制器、缓亻一致性存储器、集成型仔储器控制器、高级功能性安仝和安仝 功能。 NoC有助于每个硬件组件和软P模块间轻松地相互访问,或通过存储器映射接口访问软件。它提供了 个标准化的、可扩展的硬件框架,使异构引擎和接口逻辑之间能够进行高效通信。 WP50510)2018年10月2日 chinaxilinx.com S XILINX Versal:首款白适应计算加速平台(ACAP 异构加速 虽然可编程逻辑(FPGA)和基于矢量的(DSP、GP∪)近来已展示出明显高CPU的性能提升,但只有当 开发人员利用Ⅴ eral acap的多个类型计算单元支持紧密耦合的计算模型时,ACAP架构的真正优势才成 为人们关注的重点。在这种架构下,三单元合力可远超仪仅三倍的功效 表2总结了 Versal acap器件为各类市场提供的优势。 表2: Versal Acap与目标市场 市场 基准 与cPU对比与GPU对比与FPGA对比 注释 图像识别(推断) GoogLeNet v1(不限 时延敏感 43倍 2倍 5倍制批处理大小) 图像识别(推理) GoogLeNet v1(<2 2ms时延 不适用 8倍 5倍 ms)CP山时延下线5ms 数据中心 风险分析 用于利率互换 Maxeler 89倍 不适用 >1倍结果的风险价值(aR 基因组学 90倍 不适用 1倍人类基因分析Edco基 因组结果 弹性搜索 1TB数据 91倍 不适用 1倍 BlackLynx结果时延 降低91倍 16X165G远程无线电 不适用 不适用 >5倍 为5G远程无线电提供>5 无线5G 倍的无线电带宽 波束形成 不适月 不适用 5倍>5倍的计算能力 DSP TMAC 不适用不适用 >5倍超过27TMAC A&D雷达算法迭代时间 软件可编程智能引擎在几分 不适用 不适用 >100倍钟内编译完毕 低时延推所(<2ms ResNet50 batch= 1 AI引擎能更好地适应低时 不适用 3倍 15倍延、安全关键型ADAS和 白动驾驶 汽车 外壳类型 ACAP产品组合是唯一能够高 效支持<10W、20W、 30W,以及后备箱安装外壳 的器件 加密网终流量 ACAP对网络和加密IP的集 成使多太比特的单芯片实现成 有线 不适用 不适用 4倍 为可能。 WP50510)2018年10月2日 chinaxilinx.com 8 S XILINX Versal:首款白适应计算加速平台(ACAP 数据中心人工智能:机器学习推断加速 随着人工智能开始在现代生活中普及,对提高计算效率的需求开始推动半导体领域的创新,但仼何单 的实现都很难以开展最大效率的处理。在这方面,矢量处理和可编程硬件之间的紧密耦合具有无可比拟 的价值。 计算单元(FP32、FP16、INT16、INT8等)的精度一直是人们关注的焦点,但对网络类型之间存储器 层级需求差异的忽视,导致众多最新的人工智能推断引擎在不同网终上的效率急剧下降。例如,目前 业界一流的机器学习推断引擎需要4个HBM存储器(7.2Tb/s的外部存储器带宽)才能达到其最高性 能,但它们基于缓存的存储器层级效率仅为25-30%,并为实时应用带来了显著的时延不确定性。解决 方案就是用可编程冇储器层缴强化智能引擎执行旳矢量处理,精确地针对每种网络类型进行优化,并 通过FPGA逻辑的大规模并行来实现 例如, GoogLeNet的 Versal平台实现为非时延敏感型应用提供了极高性能,比当今最高端的Sky/ake Platinum Cpu(2)吞吐量高出43倍,比当前的顶级GPU[参考资料2]性能高约3倍,并且功耗均更低。 参见图7。 机器学习非时延敏感型推断(高 批量处理) 卖验网 高端 高端 图7: GoogLeNet性能(<7ms时延)=比高端cPU性能高出43倍1,2 测量器件为XeonPlatinum8124Skylake,C5.18XLargeAWS实例IntelCaffehttps://github.com/in-tel/caffe. V100数据取自 Nvidia技术概览,“深度学习平台,A服务在性能和效率方面的巨大飞跃” 2. Xeon platinum8124 Skylake,c58 xlarge AWS实例, Canonical, Ubuntu,1604LTS,AMD64 Xenial Image建于2018年8月14日,ntel Caffe a。Gt版本:a3d5b02, run benchmark. unmodified WP50510)2018年10月2日 chinaxilinx.com sⅫLINX Versal:首款白适应计算加速平台(ACAP 随着数据中心不断深入地应用于神经网络,多个神经网络可以链接在一起,大大增加了对低时延神经网 络的性能需求。例如,实时口语翻译需要语音转换文本,自然语言处理,推荐系统,文本转换语音,然 后语音合成[参考资料2]。这意味着对于该应用,神经內络的总时延预算增加了5倍 随着实时应用数量的不断增加,对数据屮心客户而言,选择一种可扩展的技术以满足他们未来的需求极 为关键。这就出现了两种趋势: 为提高软件设计效率,确定性时延变得愈发重要[参考资料3]。 随着日益复杂的交互建模(人机交互、金融交易)和安全关键型应用(如汽车、工业应用)的增 加,袖经网络时延要求日益严格。 这两个要求需要消除批处理,这将导致基于CPU和基于GPU的解决方案的定的、基于缓存的存储 器层级性能显著下降。即使高端CPU时延极限也高达5ms,而一旦时延在7ms以下,甚至是高端的 GP∪也会出现显著的性能下降。仅有Ⅴ ersal acap能够以可接受的性能实现低于2ms时延。参见图 8 时延敏感型 机器学习推断 高端 高端 图8: Goog LeNet实时性能(<2ms时延)=高出高端GPU( Nvidia]8倍1,2 测量器件为XeonPlatinum8124Skylake,c5.18xLargeAws实例IntelCaffehttps://github.com/in-tel/caffe. √100数据取白 Nvidia技术概览,“深度学习平台,A服务在性能和效率方面的巨大飞跃”。 WP50510)2018年10月2日 chinaxilinx.com

...展开详情
试读 21P 首款自适应计算加速平台 (ACAP).pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    关注 私信 TA的资源
    上传资源赚积分,得勋章
    最新推荐
    首款自适应计算加速平台 (ACAP).pdf 50积分/C币 立即下载
    1/21
    首款自适应计算加速平台 (ACAP).pdf第1页
    首款自适应计算加速平台 (ACAP).pdf第2页
    首款自适应计算加速平台 (ACAP).pdf第3页
    首款自适应计算加速平台 (ACAP).pdf第4页
    首款自适应计算加速平台 (ACAP).pdf第5页
    首款自适应计算加速平台 (ACAP).pdf第6页
    首款自适应计算加速平台 (ACAP).pdf第7页

    试读已结束,剩余14页未读...

    50积分/C币 立即下载 >