论文研究-基于HEVC的高度流水化的编码器帧内预测模块VLSI设计 .pdf

所需积分/C币:8 2019-08-17 15:47:38 260KB .PDF

基于HEVC的高度流水化的编码器帧内预测模块VLSI设计,刘聪,沈蔚炜,下一代视频编解码标准HEVC引入四叉树的块结构,帧内预测的模式也增多到35种,这都大大提高了编码效率。本文提出了一种16个像素并行�
国武技论文在线 操作,比如对不存在的参考像素进行推导填充的过程,对参考像素进行滤波的过程,以及在 行与列之间参考像素的投影过程。 在所有的预测模式中 和模式主要用于图像中平坦均匀区域的预测,类似于 种求平均值的运算。而 模式则主要是对那些图像中纹理存在明显方向性的区域进 行预测,它的预测过程上要是根据模式表示的方向,将当前像素投影到参考像素的行或者列 里,如图所示,然后利用公式进行像素精度的插值。 )● 哪一个相邻像素被选为或者,是由参数和当前预测像素在块中的位置决定的。 在模式至中,参数和由公式和计算,而在模式至中,相应参数 的计算则要把公式中的替换为。参数 是根据预测模式通过查表的方法求得的。 编码器中帧内预测模块的设计 本文提出的架构旨在解决由数据相关性导致的流水线停滞问题、支持所有的预测模式及 所有块大小的预测、减少存储中间变量的缓存器。在本节的以下部分中将对其进行详细介绍 顶层设计 原始像素缓存 重建像素缓存 预测引擎A 预测引擎B 参考像素 参考像素 处理 处理 s IDCT/IDST 反量化 预测 预测 量化 模式判定 DCT/DST 块划分判定 残差计算 重建回路 控制器 帧内预测 图顶层架构 在编码器帧内预沨的过程中,需要对一个块的所有预测模式进行一次扫描,从而判断哪 一种模式是最优模式ε但是在真正的预测之前,其参考像素所在的块通常需要是已经经过压 缩和解压缩的,即表小参考像素已经经过了预测和重建(变换、量化、反量化 变换),这就导致了在整个预测处理的吋序中存在较长的等待吋间,如图所示,从而减 小了系统的吞吐率和硬件的使用率。在 中这种问题显得格外严重,因为较大的块的 变换量化和反交换反量化的过程往往需要耗费更多的周期。 国武技论文在线 块1预测。重建回路 数据依赖性 块2 (预测重建回路 块1(预测A预测B重建回路广)数据依赖性 块2 预测A预测B重建回路 图简化的时序图 图是本文提山的编码器帧内预测模块的顶层架构,它采用了两个预测引擎来减小等待 吋间。引擎用原始像素作为参考像素,来扫描所有的和预测模式和块大小进行预测, 并计算相应的率失真值,以判断最优的预测模式和最佳的块划分。为了尽可能的模仿正常的 预测过程,在引擎中,尽管原始像素是一直存在并随时可用的,但是还是会进行当前快 周边参考像素的存在性判断,并据此进行相应的推导填充过程,以及之后的滤波和投影过程。 预测引擎则跟正常的预测过程一样,参考重建像素对当前块进行预测,但是它不用扫措 所有的预测模式和块人小,而只用根据引擎的结果最佳模式和最优块人小进行预测,同 时,最终输岀的预测值和原始值相减得到的残差也在这里计算岀来。 我们在 的参考软件 上做过一个测试,类似本文硬件架构的处理过程,软 件里保持大部分的处理过程不变,只是在最佳模式和最优块划分判断前的扫描预测过程中, 将重建像素用原始像素替代,之后再进行基于重建像素的预,得到的对比结果如表所示, 由此可这种用原始像素进行预测,判断模式和块大小,再参考重建像素,根据之前得到的 模式和块大小进行最终预测的方法,帶米的性能降低几乎是可以忽略不计的。 表性能对比 视频序列 均值 这样,因为大部分的预测过程都是参考原始像素进行的,而原始像素可以直接拿来使用, 从而不需要等待冗长耗时的重建过程,这样数据的依赖性就在一定程度上被降低了,这时的 时序图可以简化的由图衣示 对比图和图,等待吋间的减少主要取决于预测引擎和预测引擎所耗吋的差 距。根据上面所述,只需要用最好的模式去做预测,一方面它不用再像那样对所有的 模式进行一次扫描,另一方面,因为不用去从众多模式中取选择一个,也就没有了复杂的计 算率失真值并进行比较的过程。而且,做预测时用到许多参数可以直接从传过来而不 用重新计算,所以,的工作就显得简单了很多,只需要花费很少的时钟厝期即可完成,从 国武技论文在线 而大大提高了整个帧内预测模块的吞吐率。 帧内预测的通用预测器 为了进一步提高吞吐率,本文提出的架构是个像素点并行处理的,并根据预测模式 和多种块大小的预测过程中的许多相似性,包含了一个通用的预测器,能支持所有模式以及 所有有效块大小( )的预测。这个预测器实现了全流水化的设计, 并且易」控制从而方使的在编码器中实现全模式和全块大小的预测扫描。 图显示了这个三级流水线的预测器的结构。这里输入的参考像素已经经过了之前所说 的推导填充和滤波的处理。 参考像素 控制信号 当前块位置判断 预測角度 参考像素投影及 初步选书 预测参数训算 参考像素 参考像素「参考像素 参考像素 选择 选择 选择 选择 插值 预测像素 图帧内预测数据通路 这个通用的预测器一共只有三个简单的控制信号:表征当前采用的预测模式的 信号,表征当前预测块大小的 信号以及表明当前处理的块(个像素点)的 位置的 信号。这三个信号包含了对一个块进行预测所需要的所有信息 每级流水线完成的工作如下所述 计算参数和,从公式()和()中能看出,在模式至的预测 过程中,对于一个块中每一列的个像素,这两个参数是同一个值,类似的,在模式 至的预测过程中,每一行的个像素共用同一个参数,所以木缴主要根据控制信号提 供的信息计算出真正的预测所需要用到的参数。同时,参考像素的投影过程也在这一级完成。 利用类似于中提出的一个寄存器阵列(在本文提出的结构中将其扩充至适用 于更大的块处理),选择出对每个像素进行预测时所需要用到的参考像素 进行公式()所描述的插值过程,从而得到当前块的像素预测值。在这 一级中,采用了 技术以减少计算量和功耗。 另外, 和模式和容易地就可以在一个三级流水线的结构中集成实现,只需要 增加一些额外的选择器和计算单元(加法器、栘位器)。这种仝流水化的设计使得整个架构 能在一个较高的频率下正常工作 国武技论文在线 控制机制 图描述了对一个不完全的四叉树结构的后序遍历过稈,即本设计采用的对四叉树块 结构的扫措顺序,而在 的参考软件中,采用的则是前序遍历(深度优先)的方 法,如图所小。不同大小的块中的数字表明了此块被处理的次序。 32x32 16x16 团回回回 图四叉树结构的扫描顺序 前序遍历对于软件中的递归实现是相当有效的,但是并不适合于硬件实现,因为这样会 产生大量的中间数据从而需要大量的内部缓存器,增大硬件开销。比如在图中,最上层 的根块(块)第一个被处理,但因为此时最终的块划分还没有确定,处理完后得到的 所有 块的信息(侦测模式、率失真值、预测像素)都必须保留,直到所有的子块都被 处坦完成。同样的问题对于 根块和根块也样存在。这是从大块往小块处理必然 会存在的问题。 但是,采用后序遍历则能避免这样的问题。因为最先处理的块是最下层的子块,即从小 块往大块处理,这样每次处理亢四个子块后紧接着处理它们对应的根块,根块处理完即可判 断这一级的划分是子块最优还是根块最优,从而将两者之一的预测信息全部丢弃或者被覆 盖,这样,就可以有效的减小所需要的内部缓存器。 另外,因为本文的架构中处理的基本单元是个像素点即一个块,当对一个更人 块进行仝模式扫描的预测时,一个模式的预测需要先应用于所有的子块,然后再进行下 个模式的预测,如图所示。当一个模式的预测完成,将所有子块的率失真值通过累 加器累加,即可得到对应于当前预测块大小的此模式的最终率失真值,这样,每次做完一个 模式这个最终的率失真值就可以通过比较决定是进行更新还是保留原值。如果对于每次处理 的个块先进行全模式的扫描,则每个了块的每种模式的率失真值都必须保留至当 前预测块的最后一个子块做完。由此可见,采用图的控制机制减小了用于存储率失真 值的内部缓存器,也给模式的判断提供了方便。 4x4 8x8 BMm0①123厘如 图控制信号的部分时序图 在本文提出的架构中,采用图所示的控制机制,完全处理完一个 块(包括扫描 完所有的预测模式和所有的子块划分情况),需要花费个时钟周期。 国武技论文在线 综合仿真结果 图中预测引擎,实现了仝模式和全块大小情况的扫描预测过程,这部分已经用 实现并在 的 工艺库下进行了综合,表给出」综合的最终结果以及与 以往一些成果的比较 表综合结果 设计 本设计 工艺库 参考像预测模式和划总共 逻辑门数 素处理 分判定 频率 周期数 块 支持块大小 从表中能看出木设计的面积相对而言比较大,这主要有以下儿个原因:木设计是 个像素并行处理的,设计则是个像素并行处理的;综合的模块还还包含了参考像素的 处坦的过程,即推导填充和滤波的过程;在计算率失真值以进行模式和块大小判断时,本 设计利用了比较复杂的 变换来计算 ,而不是简单地计算 结论 本文给出」一种基于下一代视频编解码标准的帧内预测模块的架构实现, 能支持所有的预测模式和所有的预测块大小。通过采用两个预测引擎(一个基于原始像索, 个基」重建像素)的方法,有效了减小了数据相关性,实现了高度流水化。同时,设计了 个全流水化的易于控制的通用预测器。通过合理的控制机制,有效的减少了内部缓存器, 从而节省了硬件开支。整个架构能在个时钟周期内完成对一个块的所有处理(包 括扫描亢所有的预测模式和所有的子块划分情况),结合最终的综合结果,其能在 下正常工作,从而能实现 视频的实时编码。 参考文献 国武技论文在线

...展开详情
img
  • 至尊王者

    成功上传501个资源即可获取

关注 私信 TA的资源

上传资源赚积分,得勋章
最新资源