论文研究-色彩空间转换器的硬件结构分析及优化 .pdf

所需积分/C币:10 2019-08-20 10:19:21 506KB .PDF
收藏 收藏
举报

色彩空间转换器的硬件结构分析及优化,马骁骅,赵峰,本文分析了分布式算法,对一种通用色彩空间转换器的硬件实现进行了改进。用一组寄存器替代庞大的ROM/SRAM阵列,较大程度减小了面积�
国武技论又在线 http://www.paper.edu.cn 表1查找表 查找衣输入地址 査找表结果 X2.m 0 0 0 2 0 alta 0 1 aota 1 antal 1 a1+a2 基j以上分布式算法的色彩空间转换器的硬件结构可见。其架构包括8个独立的处理单元。 每个处理单元包括3个并行的有符号整数加法器,3个移位器以及1个ROM块。每个ROM 块又包括3个深度为8的ROM,该流水结构的延时为8个周期,吞叶率为每周期输出一组 色彩分量。对于一幅L×M像素的图像,利用该结构实现色彩空间转換共需要8+L×M个 周期,而使用传统的直接相乘的方法则共需要3×4×LⅹM个周期。对于高像素图像,转换 效率提高了近11倍 3.结构优化 31用寄存器代替ROM 上述结构利用流水的形式,提高了效率。但在8个流水级中,为了能够同时产生供相加 的数据,使用了3*8个ROM,即每个分量用了8个ROM,而实际上8个ROM中存放的查 找表是完全一样的,导致了冗余。但是如果只用1个ROM,无法做到一个周期内,同时输 入8个不同的地址并在下个周期输岀这8个地址所对应的数据。针对这种情况,本文提出了 用寄存器替代存储器的结构。输入的地址成为了8路复选信号的选择信号,如图1。图中 H8个寄存器存放查找表的系数R[13:0],每个寄存器的输出都接到8个8路的复选器上: 每个复选器的8个输入皆由rego,regl.reg7组成,输出则由原先的三位地址即XomX1m Ⅹ2m米做为选择信号。在这样的结构下,8路的系数就可以做到同时输出。代价是多了许多 用于选择的组合逻辑,但是相对于原来的冗余,面积已是大大的减小 山国科技论文在线 http://www.paper.edu.cn O,2,0} ppO13:0] ppl[13:1 reg 2 reg 4 eg5 6 pp713:71 图1寄存器存储的并行复选输出结构 同时,寄存器又具有可配的性质,灵活性更髙。使该转换器既适用于RGB到YUV的转 换,也适合YUV到RGB的转换,以及所有其它类似的矩阵变换。 需要注意的是,完整的部分积是14bits的,其中1bit为符号位,2bits是整数部分(部分 积最大为276,最小为-1.025)。l1bits是小数部分(4bit小数是为了保证最后的结果精确到 十进制的0.1,7bi小数是为了保证在最高权位左移7位的有效数)。在选择部分积时所取的 位数不同,比如,data0权重最低,部分积取13bit-7bit,其中1bit为符号位,2bits整数部分, 4bits小数部分。 datal~data7的位数依次递增。部分积相加时最低位对齐相加,即相当于将 部分积移位了 32压缩器归并结构 根据上一步的查表,得到了8个部分积,再加上常量as,最后的结果为这9个数的和。在原 先的结构中,每个周期做一次加法,八个期做了八次加法。现在针对该结构用一种4-2归 并的算法,最大限度的提高了归并的效率。其核心思想为种“ carry-save”的算法,最普通 的想法是3个数可归并为2数,在相加时,每一位都保留其进位与和,这样就形成了新的两个 数,数据得以減少,它的优势在于高位数据的相加不依赖于低位的进位,这杵n位的数据可 以并行相加,所以比传统意义上的全加器速度更快,效率更高。图2是一个3-2压缩器的例子。 01010 adder 10011 adder +10110 adder 3 01111 sum 10010 carry 图23-2压缩加法 对于42压缩器,其一个单元有5个输入(包括一个低位来的进位),3个输出(两个进位 和一个和)。其内部结构为 中国科技记文在线 http:/www.paper.edu.cn Full adder Full adde 图342压缩器内部结构 其中 in lin_2,in3in4为四路输入的被加数,cary,sum为两路输出结果,ci为下ˉ 级的进位,cout为向上级的进位。由图可以看出cout不依赖于ci,这是该加法器的 核心。扩展后,n个单元连接起来便成了一个n位的4-2加法器。利用4-2归并,新的结构 如图 2压缩器 pp3 压缩器 压绾器 图4利用4-2归并的并行加法结构 以经过前述复选器得到的部分积pp0pp7为输入,共是九个被加数,经过两层归并后, 最后三个数可通过一个3-2压缩器并成两路后再相加得到最后结果。这样,运算路径缩短了, 原先8个周期的操作可在两个周期内完成。 4.实验结果分析 用 Synopsys Design Compiler工具综合,日标频率为33Mhz,结果如表2: 表2优化前后对比 Area(um) 优化前 优化后 Combinational 35495 81123 Non-combinational347478 45734 Total 382978 126858 中国科技又在线 http://www.paper.edu.cn 可以明显地看出,优化后相对于之前虽增加了许多组合逻辑面积,但整体的硬件面积却 减少了50%以上。面积减少的主要原因是原先有8个8*8bits的ROM,而现在只用了8个 14bits的寄存器。 而在速度上,原先的8级流水变为2级,第3个周期即可开始岀结果,在小批量数据转换上 具有优势,同吋也便与扩展控制电路。 5结论 本文根据基于分布式算法的转换器结构,对色彩空间转换的算法作了细致的分析,在保 证现实应用所需精度的情况下,合并了查找表,用寄存器替代ROM,消除了冗余,增加了 灵活度。随后在部分积的加法操作中,引入4-2归并的结构,使得运算并行化。这样既缩短 了运算延迟,也减少了硬件面积。本设计不仅可以处理YUV到RGB的转换,也可以改变 系数做RGB到YUⅴ的转换,甚至实现其它矩阵乘法运算,具有较高的通用性。 参考文献 [1 Andy Miller, ' Colour Space Conversion, TechXclusives, Xilinx, Mar 2001 [2 Benjamin Gordon, Navin Chaddha and'Teresa H.-Y. Meng, 'A Low-Power Multiplierless YUV to RGB Converter Based on Human Vision Perception,, vI sI Signal Processing, VI, 26-28 Oct. 1994 Page(S): 408 417 33] Rui Wang, Giaoming Du, Hao L, Xiaochun Zhu, Wenfa Zhan, 'VI SI Design of Universal ColorConversion Circuit, Radio Science Conference, 2004. Proceedings. 2004 Asia-Pacific, 24-27 Aug 2004 Page(s): 269 272 14 Bensaali, F. Amira, A Bouridane, A, 'An eficient architecture fur color space conversion using Distributed Arithmelic', Circuits and Systems, 2004. ISCAS 04. Proceedings of the 2004 International Symposium on Volume 2, 23-26 May 2004 Page(s): II-265-8 Vol2 5highperformancecolorspaceconverterDatasheet,AlmaTechnologies,(www.alma-tech.com)may 2002 [6 Masato Nagamatsu, et al 'A 15-ns 32*32-b CMOS multiplier with an improved parallel structure,April 1990. Masato Nagamatsu.eL Al Hardware architecture analysis and optimization of color space converter Ma Xiao hua, Zhao feng Shanghai jiao Tong University School of Microelectronics, Shanghai, 200040 Abstract: This paper proposes an improved architecture of color space converter. based on distributed arithmetic. This architecture uscs a sct of registers instcad of large rOM/sram arrays to dccrcasc thc area (The hardware area of proposed architecture can be reduced by 50%.) and also make it easily configurable. Meanwhile, using the 4-2 compressor, it can be realized by parallel pipeline and the stage 6 山国武技在线 http://www.paper.edu.cn of the pipeline is cut to half. This results in low latency and high data throughput and it can fully satisfy the real-time color space conversion Keywords: distributed arithmetic, color spacc convcrsion, 4-2 comprcssor 作者简介 马骁骅(1977~),男,汉族,上海交通人学微电子学院工程硕士研究生。主要研究方向 集成电路系统设计 Email: maxiaohua aic sjtu.cdu.cn 赵峰,男,上海交通大学微电子学院,讲师。国科学院上海技术物理研究所,电子科学与技 术专业博士。主要研究方向:微处理器系统设计;红外弱目标检测与跟踪。

...展开详情
试读 7P 论文研究-色彩空间转换器的硬件结构分析及优化 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
抢沙发
一个资源只可评论一次,评论内容不能少于5个字
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分,得勋章
最新推荐
论文研究-色彩空间转换器的硬件结构分析及优化 .pdf 10积分/C币 立即下载
1/7
论文研究-色彩空间转换器的硬件结构分析及优化 .pdf第1页
论文研究-色彩空间转换器的硬件结构分析及优化 .pdf第2页

试读结束, 可继续读1页

10积分/C币 立即下载 >