智东西公开课-存算一体AI芯片的架构创新与技术挑战-知存科技CEO王绍迪.pdf
【存算一体AI芯片的架构创新与技术挑战】 存算一体AI芯片是一种旨在解决传统冯·诺依曼架构中计算和存储分离导致的性能瓶颈,尤其是数据搬运带来的能耗和延迟问题的新型芯片设计。在边缘计算领域,由于其对低延迟、高能效和紧凑尺寸的需求,存算一体芯片显得尤为重要。根据描述,边缘市场的增长迅速,预计到2025年将达到20至30亿美元的规模,而其中边缘AI设备的配备率也在逐年提升。 传统的AI芯片架构主要由训练芯片和推理芯片组成,通常依赖于云端进行大规模数据处理和模型训练,而边缘设备则负责运行经过训练的模型进行实时推理。然而,随着AI应用的普及,数据量的急剧增加暴露了"存储墙"和"计算墙"的瓶颈。在边缘AI运算中,数据搬运占据了大部分能耗,而半导体工艺的进步并未显著降低这一开销。 为了解决这些问题,研究者提出了多种策略,包括采用高带宽的数据通信技术如高速SerDes和光互连,以及2.5D/3D堆叠技术来增加缓存级数和片上内存密度。此外,高带宽内存(HBM)通过三维内存芯片堆叠技术,可以提供高达960GB/s的数据传输速度。同时,3D-NAND "Xtacking"架构允许更高的I/O速度,进一步优化存储性能。 存算一体架构的主要目标是消除存储IO瓶颈,提高运算效率,并减少昂贵的片外存储器使用,从而降低成本。这种架构有两种主要类型:基于数字信号和存储的存算一体,以及数模混合的存算一体。历史上,从1999年的UlUC FlexRAM到2014年的Utah Near-data Processing(NDP),存算一体的概念一直在发展,但受限于工艺兼容性和应用适配问题,未能广泛应用。 近年来,随着深度学习的快速发展,存算一体芯片迎来了新的机遇。深度学习的高存储需求、并行运算特性以及巨大的市场潜力,推动了存算一体商业化进程。其中,非易失性存储如浮栅技术(Floating Gate)、NAND Flash、DRAM、SRAM/MRAM、PCM/RRAM等被用于实现存算一体,以支持大规模并行模拟运算。 当前,GPU已经采用了HBM技术来提高带宽,如配备16GB HBM的GPU可以达到900GB/s的传输速率和低至64pJ/byte的能效。而CIM(计算存储一体化)技术,如300MB容量、4500 GOPS的性能,展现了存算一体在边缘计算中的巨大潜力。 存算一体AI芯片的架构创新在于通过集成存储和计算功能,减少数据搬运,提高运算效率,降低成本,并适应边缘计算的特定需求。随着技术的发展和市场需求的推动,存算一体芯片将在未来的AI领域扮演越来越重要的角色。
- 粉丝: 0
- 资源: 145
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助