在当今集成电路技术飞速发展的背景下,多核处理器的核心数量在不断增加,系统容量也在相应地扩大。随着核心数量的增加以及系统容量的扩大,芯片的制造偏差、组件故障、多处理器系统芯片集成不规则IP以及动态电源门控等新问题日益显现,这些因素都会导致片上网络中出现不规则的拓扑结构,增加了系统在制造和运行过程中出现故障的机率。因此,容错能力对于系统的可靠性变得越来越重要。片上网络的正常工作将非常依赖于片上网络系统传输数据的可靠性。为了适应上述挑战,一个片上网络必须具备重新配置网络路由的能力,并能够将数据传输路径绕过无法正常工作的位置。
本研究提出了一种基于片上网络的分布式容错方法设计实现。研究中设计了一种用于路由计算的特定约束跳转配置方法。为了保证该方法的健壮性,研究人员采用基于局部信息的通信方式,并设计实现了分布式的路由器传输路径配置单元。此外,本方法还完成了硬件实现,具体是在FPGA平台上进行的。在介绍的研究成果中,所提出的容错路由算法在处理片上网络拓扑结构时,能够灵活地适应不同的网络结构变化。
容错方法设计实现主要围绕以下三种常用方法展开讨论:
1. 冗余单元:冗余单元在对面积要求不苛刻时可以使用。但是这种方法会增加额外的资源消耗,随着核心数目上升,备用单元的数量也需要增加,带来不可忽视的硬件开销。
2. 容错路由算法:片上网络的拓扑结构多样,不同拓扑结构下的路径选择也很多样。为了旁路失效单元,可以采取绕开含有错误组件的路径进行通讯传输的方式。这种方法需要有效的路径计算,在数据产生的源节点将路径信息加载到消息头部,以引导数据包的正确传输。
3. 重配置:该方法通过重新配置路由表来达到容错的目的。这种方法的特点是额外硬件消耗少,方法灵活,但应对不规则的拓扑结构时可能会面临一定的挑战。
本研究针对片上网络的容错设计实现,采用的是基于局部信息的分布式路由技术。该技术能够在制造和运行过程中,根据局部信息快速重新配置路由,从而确保数据传输在片上网络中的可靠性。实现的分布式路由器传输路径配置单元通过硬件实现,验证了其在FPGA平台上的可行性。这为多核处理器在片上网络环境中的可靠运行提供了新的容错机制和设计思路。