NVDLA
深度学习推理的大部分计算工作基于数学运算,这些运算主要可以分为四个部分:
convolution,activation,pooling 和 normalization。NVDLA 硬件提供了一种简单、灵
活、稳健的推理加速解决方案。它支持广泛的性能水平,并且可以轻松扩展应用程序,从小
型、成本敏感的物联网 (IoT) 设备到面向性能的大型物联网设备。NVDLA 硬件由以下组件
组成:
• Convolution Core – 优化的高性能卷积引擎。
• Single Data Processor——用于激活函数。
• Planar Data Processor——用于池化 pooling。
• Channel Data Processor——用于归一化 normalization。
• 专用的 Memory and Data Reshape Engines – 用于 memory-to-memory
transformation acceleration for tensor reshape and copy operations.
小型 NVDLA 模型非常适合对成本敏感的物联网类设备、人工智能和面向自动化的系统,当
主要强调高性能和多功能性时,大型 NVDLA 模型是更好的选择。面向性能的系统需要对许
多不同的网络进行推理;因此,这些系统必须保持高度的灵活性。Large NVDLA 硬件包括用
于专用高带宽 SRAM 存储器接口,并能够与微控制器连接,可以用来限制主处理器上的中断
负载。
一个清晰的硬件架构应该是这样的