论文研究-基于可靠性分析的胚胎硬件容错策略选择方法.pdf

所需积分/C币:5 2019-09-20 17:31:02 840KB .PDF

论文研究-基于可靠性分析的胚胎硬件容错策略选择方法.pdf,  胚胎硬件的容错策略是影响阵列可靠性的重要因素, 可靠性分析可从理论上得到理想的容错策略和阵列布局, 为硬件优化设计提供目标. 胚胎硬件可靠性分析的传统模型仅考虑阵列布局结构, 视细胞为固定节点, 不考虑容错电路设计中细胞内部电路模块的变化, 未能全面反映电路设计的实际情况. 针对这一不足, 提出了新的可靠性模型, 将细胞内配置存
238 系统工程理论与实践 第33卷 行移除策略:故障细胞所在行细胞全部“死亡”并“透明”,故障行所有细胞仅起导线的作用.如图2(c) 所示,该行和位于该行上方的所有细胞功能依次上移 细胞移除策略:故障细胞所在行有空闲细胞时,先进行行内细胞移除,自故障细胞开始,右边细胞功能依 次右移,如图3(b)所示,如空闲细胞不少于故障细胞,行内即可完成修复;如果行内空闲细胞少于故障细胞 则舯发行移除,其原理与行移除策略相同,如图3(d)所示 3胚胎硬件自修复容错的可靠性建模和分析 31可靠性建模的相关背景⑨ (1)k- out-of-m模型包含m个单元,但只要求其中k个单元能正常工作的系统称为满足 k-out-of-m模 型的系统,胚胎硬件阵列结构工作满足k- out -of-π模型.k-out-ofm模型系统的叮靠度叮表示为 Rt)=∑Cm)(1-p(+)m==∑ (1 入t(m-) 其中p(+)=ex为每个单元正常工作的概率分布函数(称为可靠度),λ为单元失效率,取常数,单位为10-/h 由于可靠度是一个随时间变化的量,难以度量,一般用平均无故障时间MITF( mean time to failure来衡量 系统可靠生.MTTF与R(t)的关系为 MTTE (2) (2)胚胎阵列结构的描述胚胎硬件阵列由工作细胞阵列和空闲细胞阵列组成,定义胚胎阵列总规模为N ×M,工作细胞阵列规模为×m,其中,N,π分别为总阵列和工作细胞阵列的行数,M,分别为总阵列和 工作细胞阵列的列数,细胞之间相互独立.胚胎硬件的设计目标是在固定硬件上实现特定逻辑功能(实际设 计过程往往如此),相关变量可定义为 ①总细胞阵列规模为N×M,N、M为定值 ⑨工作细胞总数α=m×m,c为定值,η,m为变量:实现特定功能所需的工作细胞数不变,但工作细胞的 结构布局可变 (3)传究可靠性模型6-10 ①行/列移除策略的可靠性模型 以行移除策略为例,每行中每个工作细胞都可靠则该行可靠,在总共N行中,有n行可靠则阵列可靠, 阵列所有行的可靠性满足k-outτofm模型,则行移除策略模型的可靠度Rne(t)和可靠性M''he分别为 R(t)=∑ CNRhhe(1)(1-Rn(t)-=∑Che = Mh-/na(d-/∑ we mAit -m入tN 1∑ 其中,BAhc(+)=emM为每一行的可靠度 ⑦细胞移除策略的可靠性模型 每行中有m个细胞可靠则该行可靠,阵列中有η行可靠则阵列可靠,所以,细胞移除策略下行/列的可 靠性都满足k-out-o)f-〃模型.故每行可靠度为: Ran(t)=∑ At\M t二 阵列的可靠度Rac(t)和可靠性 MTTFcO分别为 ()=∑Ra(t)(1-Ra2(h) MaTH ∑CNnm(t)(1-ln(t)-dt 32改进的可靠性模型 (1)容错策略对细胞电路面积影响的分析 第1期 张砦,等:基于可章性分析的胚胎硬件容错策略选择方沄 23 胚胎硬件自修复寳错策略的传统可靠性模型仅从细胞阵列的布局角度分析,细胞被抽象为一个面积和组 成都不变的点.而实际胚胎硬件设计表明1-14:细胞电路在实现功能所需的基本硬件资源消耗基础上,采 用的容错策略不同,部分组成模块旳结构会发生变化,细胞占用资源的面积会增加,其中,行/列移除策略下 细胞面积随空闲细胞分布和多少的变化会少量增加,而细胞移除策略下细胞电路面积会发生很大变化.主要 原因有下面两个: ①配置存储器容量增大 行移除策略中,每个细胞只可能替代同列下方细胞,随着空闲细胞行数的增加,配置存储器所需保存的 配置信息会少量増加;而细胞移除策略中,每个细胞不仅要能替代同列下方的细胞,还要能够替代同行左边 和左下方细胞的功能,这导致细胞移除策略下每个细胞须保存更多的配置信息,消耗更多的硬件资源,且随 每行空闲细胞数的增加成正比增加 ⑨输入输出布线器的辅助布线电路 行移除策略中,自修复过程的重布线在故障行只需连接东南酉北四个方向,如图2(c)所示.但细胞移除 操作中,行内修复的重布线过程会出现芮个不同列的工作细胞进行直接迕接的情况,由于胚胎阵列只有东西 南北四个方向有直接连线,因此需要设计辅助布线电路 工作细胞」空细胞凹故障细胞 第3行 ≡ kE- 第1行 鲁请辑峡等年 图4胚胎阵列细胞移除策略下输人输出布线器的连接电路示意图 图4所示为3×4阵列在细胞移除簧略下,输入输出布线器的连接电路示意图,图中实线表示已连接,虚 线表示未连通.由图4可知,故障发生前,各行相同序号工作细胞处于同列,而自修复后发生很大变化,如第 2行的细胞0需要与第1行的第3列和第3行的第1列细胞相连,为实现此连接,需要输入输出布线器在开 关模块基础上増加辅助布线电路,辅助布线电路占用资源随各行中空闲细胞数的増多而増加,每多一个空闲 细胞,需要增加四条连线(左右各两条) (2)改进的可靠性模型 由于行/列移除策略细胞面积增加小,在建立新模型时定义行移除策略下细胞面积为实现系统功能必要 的细胞面积,即面积不变,仅考虑细胞移除策略下每个细胞因增加辅助电路导致细孢面积增大.引入细胞面 积变化因素,建立胚胎硬件阵列的改进可靠性模型. 行移除策略的改进模型与传统模型相同,细胞移除策略下因细胞面积变化,新的模型描述如下: ①设α为细胞移除策略中行内每增加一个空闲细胞,每个细胞中增加的配置存储器面积和辅助布线电 路面积的和与原细胞面积(实现系统功能的必要面积)的比,称为面积增加比.a大表示设计的硬件消耗多, 这与配置存储器和辅助电路的结构和设计方法有关,体现了电路的设计水平.以r表示每行的空闲细胞数, 细胞面积的增加值与每行空闲细胞数成正比,此时,细胞面积为Sfac=(1+ar)S; ②细胞的失效率入与细胞面积S成正比,面积越大则失效率越高,面积增加比例与失效率增大的比例相 同,则有入ac=(1+ar)入 ③芯片面积不变,用能够构造的初始面积下的细孢数表示,即总阵列为N×M,N.M表示不考虑细胞面 积变化时总细胞阵列的行数和列数.细胞移除策略下,由于单个细胞占用资源增加,则实际总细胞数会减少, 实际总细胞阵列中细胞数为:Nm=L1+,Mfme I+ar 表示取不大亍该数的整数 240 系统工程理论与实践 第33卷 ④实现的系统功能不变,因此,所需的工作细胞数c保持不变 将式(⑤5),(6),(7)中N,M,改为Nrac,Mfac,即得到攻进模型的可靠性计算公式 33可靠性实例分析 传统可靠性模型中,当总细胞阵列和τ作细胞阵列都相同时,细胞移除策略由行移除増加行内细胞移除 实现,可靠性会更高.在新的可靠性改进模型中,细胞移除策略下由于单个细胞面积增加,失效率增大,而 工作细胞数不变,总细胞数减少,导致空闲细胞数减少,系统可靠性会明显下降,下面取N×M-200×200, c=10,000,0入=1,进行可靠性定量分析 首先分析传统模型下两种容错策略阵列的可靠性情况.图5和图6分别是总阵列不变,工作细胞阵列 结构不同(实现相同系统功能采用不同的工作细胞阵列结枃)时,行移除策略和细胞移除策略的可靠生曲线 图5所示为阵列可靠性随工作细胞阵列行数变化的曲线,工作细胞行数较少,即空闲细胞行数较多时,系统 获得较高可靠性,但最大可靠性值并不是岀现在冗余行数最多时,说明行移除策略下并非空闲细胞行数越多 可靠性越高.图6所示为细胞移除策略下阵列可靠性随每行空闲细胞数变化的情况(每行空內细胞数相司) 由图6可知,每行空闲细胞数越多,系统可靠性越高,行内空细胞数接近每行允许的最大冗余细胞数时获 得最大可靠性.由图5和图6的可靠性曲线可知,总阵列结构相同,工作细孢数不变时,采用细胞移除策略能 获得的最大可靠性(1.1⑥)迒高于采用行移除策略能获得的最大可靠性(0.0075),因此,基于传统模型的胚胎 硬件容错策略旳选择依据是:釆用细胞移除策略总能获得比行/列移除策略高的系统可靠生,即从可靠性高低 角度评价应始终选择细胞移除策略进行胚胎电路设计 N=M=200,c=10000 N=M=200.c=10000 0.4 工作细胞行数:n 100 150 行内空闲细胞数:(Mm) 图5行移除策略下传统樸型的可靠性曲线 图6细胞移除策略下传统模型的可靠性曲线 下面分析改进模型下的阵列可靠性行/列移除策略下的改进模型与传统模型相同,可靠性曲线如图5所 示.图7所示是改进模型下,采用细胞移除策略,α分别取0,0.1,0.3,0.5,0.7时,可靠性随行内空闲细胞数 r的变化曲线,图中α=0时的曲线与图6曲线相同(此处未完整显示).由图7可见,随着c增大,每条曲 线的最大值急剧下降,α-0时最大可靠性为1.16(与传统模型结果相同),α-0.1时已下降为0.041,说明面 积增加比α对阵列可靠性大小的影响很大.细胞电路中α的大小是电路设计水平的体现,采用优化的配置 冇储器和辅助布线电路结构和设计方法叮减小α值,从而提高系统的叮靠性 N=M=200.c=10000 N=M=200.c=10000 十—细胞移侩策略 105 一-C.1 行移除策略 C=C.3 008—+∞=0.5 006 k米半 85 0.04 0.7 行内空闲细胞数:r 图7不同∝值下的可靠性曲线 图8两种容错策略下最大可靠性随α变化的情况 第1期 张砦,等:基于可章性分析的胚胎硬件容错策略选择方沄 241 a分别取0.3.0.5,0.7时,随r的增大,单个细胞面积迅速增大,总细胞数快速减少,在工作细胞数一定 的前提下:每行能够配置的空闲细胞将越来越少(行内最大空闲细胞数分别为8、5和4) 图8所示为α从045增大到0.75时,两种自修复策略下系统最大可靠性的变化情况(行移除策略的最 大可靠性为图5中曲线的最大值,细胞移除策略的取值是不同α值下,分别计算出的图7所示可靠性曲线的 最大值).对于细胞移除策略,最大可靠性值随α増大逐渐减小,而行移除策略下,细胞面积不受影响,最大可 靠性为恒症值.由图τ、δ可知,α较小时,细胞移除策略的最大可靠性远大于行移除策略的最大可靠性,但 随着α值逐渐増大,细胞移除策略下的系统可靠性逐渐降低,丽行/列移除策略下的系统可靠性不受α影响, 当α大于0.69时采用行移除策略所能获得的最大可靠性将大于细胞移除策略下的最大可靠性.因此,基于 改进模型的胚胎硬件寳错策略的选择依据是:细胞面积増加比不大于某一上限值是选择细胞移除策略以获得 比行/列移除策略更高可草性的前提,该α的上限值大小与细胞电路的结构和设计方法有关 由图8可知,无论α值大小如何,合理选择容错策略将保持胚胎硬件阵列获得不低于行移除策略最大 可靠性的系统可靠性.由于α值受细胞阵列结构、细胞电路设计方決等因素影响,因此,通过优化电路设计 合理布局阵列结构等方式可获得较小的α值,从而满足选择细胞移除策略的条件,达到提高系统可靠性的目 4基于可靠性分析的容错策略选择方法 33中可靠性分析的结果,得到了总细胞阵列和工作细胞数一定时,胚胎硬件阵列的容错策略选择条件. 为给岀一般情况下胚胎硬件寳错策略的选择条件,下面在改进模型基础上,硏究不冋总细胞阵列规模(在不 冋规模芯片上实现电路设计)下获取两种容错策略选择条件的分析方法. 表1所示为c=10,000,A=1,总细胞阵列从110×110到400×400变化时,两种容错策略选择的临界α 值(即a上限值),表中α值是取不同总细胞阵列时通过3.3的分析过程得到的,可作为容错策略选择的条 件.某设计在已知设计目标(工作细胞数)和芯片面积(总细胞阵列)情况下,可根据表1的α值进行容错 策略选择.若实际设计能力的α小于对应临界α值,则采用细胞移除策略能获得更高的可靠性,否则应釆用 行移除策略.从表1可以看出,临界α值随总阵列由小到大(空闲细胞数由少到多),呈先増后减的变化趋势, 由于α值的大小与细胞电路设计水平相关,α值越小则设计难度越大,因此,由表1可知空闲资源很少或很 多时,采用细胞移除策略获得高叮靠性的细胞电路设计难度更大 表1c=10,000,入=1,两种容错策略下获得相同可靠性时的a值 N×M110×110120×120130×130140×140150×150160×160170×170180×180190×190200×200 0.18 0.35 0.47 0.55 0.67 0.69 0.71 0.72 0.69 NxM210×210220×220230×230240×240250×250260×260270×270280×280290×290300×300 0.68 0.66 0.65 0.63 0.62 0.60 0.59 0.58 0.570.56 NXM310×310350×350400×400 0. 55 0.51 0.46 表1数据是在细胞失效率为1的情况下得到的,但实际细胞电路的失效率随细胞面积、实现功能、器 件类型等多种因素改变,下面分析λ变化对表1中临界α值的影响.对于可靠性模型中可靠性计算公式 (4)、(6)和(7),选择不同的入时,可得到式(8)(10) MTTFhe(入1) 入 1入2 2=xm227 MTT Fhe(A2) 8) Itn(t)=x1-∑Cre(1 入1t1m-2 入2i(3t Rh (9) =A2 MTTFre(A1) ∑CN(Pma(1)=x)(1-(2(t)入=A)-t ∑(P MTTF2(入 242 系统工程理论与实践 第33卷 由 mTTFhe(A1)= MTTFNe(2)和 MTTFre(A1)=3MTF(λ2)可知,两种容错策略下可靠性 高低与单个细胞失效率的大小均成反比,所以,入取值不同仪对可靠性绝对值大小有影响,对可靠性变化趋势 和临界α值都没有影响,即表1结论与电路中细胞的失效率无关 5结论 目前,胚胎硬件容错硏究的重点是阵列结构和细胞电路设计,缺乏以电路设计优化为目标的可靠性分析. 本文以可靠性高低为评价指标,通过可靠性建模并分析,给出了胚胎硬件容错策略选择条件的计算方法,实 现了可靠性理论分析对电路优化设计的指导 传统胚胎硬件可靠性分析只从胚胎阵列的结构布局进行建模,对细胞电路的组成模块变化加考虑,分 析结论冇在片面性,无法用于指导电路设计.本文建立的改进模型,将细胞内部配置存储器和输入输出布线 器因容错策略不冋的变化因索引入到可靠性分析中,与传统模型相比,新模型中行/列移除策略卜细胞电路 面积不受空闲细胞结构影响,而细胞移除策略下细胞电路面积随行内空闲细胞数增加而线性増加,导致总细 胞数和空闲细胞数下降,系统可靠性降低.传统模型的可靠性分析结果表明在相同硬件上实现相同的逻辑功 能,采用细胞移除策略总能获得比行/列移除策略更高的可靠性,而通过本文模型的分析发现,细胞电路中囚 实现白修复容错设计而增加的辅助电路资源过多采用行/列移除策咯将获得更高的可靠性,文章给出了辅助 电路资源临界状态的量化值,可作为容错策略的选择依据. 参考文献 [1 Mange D, Sipper M, Marchal P. Embryonic electronics[J. Biosystems, 1999, 51(3: 145-152 M D, Sipper M, Stauffer A, et al. Toward robust integrated circuits: The Embryonics approach(C// Proceedings of the IEEE, 2000, 88(4):516 543 3 Ponliarelli S, OLlavi M, Vankamanidi. Analysis and evaluations of reliabiliLy of reconfigurable FPGAs[J. Journal of Electronic Testing Theory and Applications, 2008, 24(1-3): 105-116 4 Samie Dragffy G, Pipe T. Novel bio-inspired self-repair algorithm for evolvable fault tolerant hardware systems[C// Proceedings of Genetic and Evolutionary Computation Conference archive, Montreal, Quebec, Canada.2009:21432148 5 Zhang X G. Biologically inspired highly reliable electronic systems with self-healing cellular architecture[DI Bristol: University of the West of England, 2005 [6 Ortega C, Tyrrell A. Reliability analysis in self-repairing embryonic systems[C// Proceedings of the First NASA/DoD Workshop on Evolvable Hardware, Pasadena, California, USA, IEEE Computer Society, 1999: 120 7 Ortega C, Tyrrell A. Self-repairing multicellular hardware: A reliabilily analysis[Cl// 5th European CoNference on Artificial Life(ECAL), Tausanne Switzerland, 1999: 442-446 8]林勇,罗文坚,钱海,等.n×η阵列胚胎电子系统应用中的优化设计问题分析小J.中国科学技术大学学报,2007,37(2): 171-176 Lin Y, Luo W J, Qian H, et al. Analysis of optimization design in n x n array embryonic system applications Journal of University of Science and Technology of China, 2007, 37(2): 171-176 9 Misra K. Reliability Analysis and Prediction[M. Elsevier, 1992 10 Avizienis A. Toward systematic design of fault-tolerant systems J. IEEE Computer, Computer Society Press 1997(4):51-58 11 Zhang Z, Wang Y R, Yang S S, et al. The research of self-repairing digital circuit based on embryonic cellular array[J. Neural Collpuling and ApplicaliOns, 2008, 17(2):145-151 [12 Zhang Y, Wang Y R, Yang S S, et al. Design of a cell in embryonic systems with improved efficiency and fault tolerance[C// Proceedings of 7th International Conference on Evolvable Systems-From Biology to Hardware Wuhan, China. 2007: 129-139 13 She X Self-routing, reconfigurable and fault-tolerant cell arrayJ. IET Computers and Digital Techniques, 2008 2(3):172-18 14Jackson A H, Canham R, Tyrrell A. Robot fault-tolerance using an embryonic array(Cl//Proceedings of 2003 NASA/DoD Conference on Evolvable Hardware, Chicago USA, IEEE Computer SocieL y, 2003: 91-100

...展开详情
试读 7P 论文研究-基于可靠性分析的胚胎硬件容错策略选择方法.pdf
img
  • 至尊王者

    成功上传501个资源即可获取

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐
    论文研究-基于可靠性分析的胚胎硬件容错策略选择方法.pdf 5积分/C币 立即下载
    1/7
    论文研究-基于可靠性分析的胚胎硬件容错策略选择方法.pdf第1页
    论文研究-基于可靠性分析的胚胎硬件容错策略选择方法.pdf第2页
    论文研究-基于可靠性分析的胚胎硬件容错策略选择方法.pdf第3页

    试读已结束,剩余4页未读...

    5积分/C币 立即下载 >