通过GPGPU中的线程通道随机压缩提高SIMD的利用率资源-CSDN文库

131 浏览量 2021-03-12 11:13:30 上传评论收藏 445KB PDF 举报

在探讨如何通过图形处理器（GPU）中的线程通道随机压缩技术提高单指令多数据（SIMD）利用率的研究中，关键词包括“图形处理单元（GPU）”、“单指令多数据（SIMD）”、“分支发散”以及“GPGPU”（通用计算GPU）。GPGPU利用单指令多线程（SIMT）执行模型，这是一种在硬件流水线上的执行模式，每个逻辑线程在warp（一种线程束）中对应到SIMD通道，并可保持独立的控制流。然而，当发生分支发散时，即warp中的线程采取不同的执行路径，GPU必须通过SIMD通道掩码串行执行每个路径，这会降低SIMD利用率和性能。为应对这一挑战，研究者提出了一种高效的线程压缩机制，通过一种新型的寄存器文件结构来处理分支发散。同时，为了支持该机制，开发了一种新的线程调度策略。该机制的核心在于，在warp内部对线程进行压缩，将不同warp中的线程填充到空闲通道中。这样，即使在分支发散的情况下，也能保持较高的SIMD利用率和性能。文章中提到的关键技术包括线程束压缩（Thread Block Compaction，TBC）。TBC的核心思想是将一个协作线程数组（Cooperative Thread Array，CTA）中的线程收集成warps，以填充空闲通道。寄存器文件必须重新设计，以便线程能够访问不同的寄存器文件行。在TBC中，寄存器文件被分割为多个以SIMD通道为单位的存储体（banks），来自不同通道的线程在压缩后形成新的warp，但它们在压缩后仍然保持在它们原来的通道中。文章指出，现代GPU不仅仅是图形引擎，它也是一个通用计算平台，通常被称为GPGPU。它在SIMD硬件流水线上以SIMT模式运行，并配备了大容量的寄存器文件以支持多线程。与传统向量处理器中的SIMD不同，其中短向量的元素必须并行处理，GPGPU中的每个线程都映射到一个SIMD通道，但能够保持任意的指令流。当发生分支发散时，即warp内的线程采取不同的执行路径，GPU必须通过SIMD通道掩码串行执行每个路径，这有可能降低SIMD的利用率和性能。研究者提出的线程压缩机制，以及新型寄存器文件结构和配套的线程调度策略，通过模拟结果显示出能提高SIMD利用率至74.4%，并实现最高达11.1%的性能提升，同时硬件开销相对较小。在这项研究中，分支发散处理的实例，如PDOMI（Processor Dynamic Overclocking and Memory Interleaving）结构，用来说明如何有效地管理warp内的线程压缩以提高利用率。PDOMI结构能够在保持高利用率的同时，动态地调整和加速处理器以及内存的交错管理，以实现计算和存储资源的最优利用。为了适应新的线程压缩策略，寄存器文件的设计也被重新考虑。原本的寄存器文件被拆分成基于SIMD通道的多个存储体。这种设计允许从不同通道来的线程在压缩后共享相同的物理通道，而它们原本的通道信息会被保留。这样做可以在不牺牲太多硬件资源的同时，有效利用所有可用的SIMD通道，从而提升执行效率。该论文对GPU架构和并行计算领域有着重要的理论和实践意义，因为它不仅指出了传统分支预测技术在处理分支发散时的不足，而且还提出了一种创新的应对方案。这一方案能够在不显著增加硬件成本的前提下，显著提升GPU的计算性能，尤其是对于那些高度依赖于分支条件的算法和应用。这不仅为GPU设计者提供了新的视角，也为软件开发者在编写高效GPU程序时提供了新的优化思路。

资源推荐

资源评论