收稿日期: 2010唱12唱13; 修回日期: 2011唱03唱02 基金项目: 国家“863” 高科技研究发展计划资助项目(2004AA1Z1020)
作者简介: 武淑丽(1987唱) ,女,河南周口人,硕士,主要研究方向为数字 IC 前端设计和验证( fadeaway1000@163.com) ;孟建熠(1982唱) ,男,博
士后,主要研究方向为高性能低功耗嵌入式处理器的设计与研究;王荣华 ( 1985唱) ,男,博士研究生,主 要研究方向为嵌 入 式 处理器的设计 以 及 验
证;严晓浪(1947唱) ,男,教授,博导,主要研究方向为超大规模集成电路设计、VLSI 设计自动 化;葛海通(1972唱) ,男,高级工程 师,主 要 研究方向为
嵌入式处理器设计与验证.
基 于 预 测 缓 存 的 低 功 耗 TLB 快 速 访 问 机 制
倡
武淑丽, 孟建熠, 王荣华, 严晓浪, 葛海通
(浙江大学 超大规模集成电路设计研究所, 杭州 310027)
摘 要: 基于存储器访问局部性原理,提出了一种基于预测缓存的低功耗转换旁置缓冲器 ( TLB) 快速访问机
制。 该机制采用单端口静态随机存储器(SRAM) 代替传统的内容寻址存储器(CAM)结构,通过匹配搜索实现全
相连 TLB 的快速访问,在两级 TLB 之间设计可配置的访问预测缓存,用于动态预测第二级 TLB 访问顺序,减少
第二级 TLB 搜索匹配的延时,并有效降低第二级 TLB 访问功耗。 采用该机制明显降低了 TLB 的缺失代价,当第
一级 TLB 缺失时访问第二级 TLB 的平均访问延时接近 1 个时钟周期,约为原有平均访问延时的 20%,增加的面
积开销仅为原内存管理单元的 1畅81%左右,具有低成本、低功耗的特征。
关键词: 内存管理单元; 两级转换旁置缓冲器; 内容寻址存储器; 静态随机存储器; 预测缓存; 快速访问; 低功耗
中图分类号: TP393畅08 文献标志码: A 文章编号: 1001唱3695(2011)08唱2964唱03
doi:10.3969 /j.issn.1001唱3695.2011.08.045
Fast and low power TLB access mechanism with prediction buffer
WU Shu唱li, MENG Jian唱yi, WANG Rong唱hua, YAN Xiao唱lang, GE Hai唱tong
( Institute of VLSI Design, Zhejiang University, Hangzhou 310027, China)
Abstract: This paper proposed a fast and low power TLB access mechanism with prediction buffer based on memory access lo唱
cality principle, and designed a two唱level TLB structure implemented by SARM instead of CAM to achieve fast access of the
full associated TLB.Between the two levels of the introduced TLB, an independent and hardware configurable prediction buff唱
er was designed to dynamically predict the access sequences of the second level TLB, which could reduce its access penalty
when the first level TLB missed and significantly reduce the dynamic power consumption with little control logic.Experiment
shows that compared with the traditional two唱level TLB structure, the average access cycles of the second level TLB are about
20% of the traditional one, with only 1.81% area increment, which support low power and low cost embedded application.
Key words: MMU; two唱level TLB; CAM; SRAM; prediction buffer; fast access; low唱power
0 引言
当前的高端嵌入式处理器均在片内集成了内存管理单元
(MMU),它是支持虚拟处理器的核心部件,实现虚拟地址到物
理地址的映射、存储访问权限的控制以及地址属性的设置等功
能。 其中,转换旁置缓冲器(translation look唱aside buffer,TLB)
是 MMU 的核心部件,完成虚拟地址到物理地址的实时转换。
目前的 TLB 架构主要基于内容寻址存储器(content addressable
memory,CAM),其基本原理是对输入内容与存储单元中的每
个表项进行并行比较获得匹配信息,在一定程度上提升了 TLB
表项匹配速度。 CAM 的缺点是:它是定制的,因此其工艺跃迁
性差,设计和维护的成本高,并且大量数据的并行比较所产生
的功耗是十分明显的。 如文献[1] TLB 耗能约占缓存总功耗
的 20% ~25%,而在 Strong ARM
[2]
和 Hitachi SH唱3 这两款嵌入
式处理器中,TLB 耗能分别占总功耗的 17%和 15%
[3]
之多。
目前常见的措施是在 CAM 结构的前提下,通过优化 TLB
访问 机 制, 实 现 性 能 提 升、 功 耗 降 低 的 目 的。 如 Banked
TLB
[4,5]
提出将整个 TLB 分成几路相联的块,通过部分信息比
较获得当前访问的 TLB 区块,但是该机制的 TLB 页面缺失率
较高,空间使用率低,会引起较大的性能损失。 支持多种页面
大小的 TLB
[6,7]
,通过在硬件上支持两种或多种页面大小来获
得高性能,但是该方法需要额外的硬件资源来创建大页 TLB,
增加了较大的硬件开销。 当前实际工程中,嵌入式处理器常采
用分层结构的 TLB 访问机制,这是因为嵌入式应用具有较强
局部性特征,在面向嵌入式应用的 MMU 设计中可通过挖掘数
据访问局部性的方法,将最频繁访问的页面集中在若干的 TLB
内,实现了 TLB 性能的提升和 CAM 地址比较转换功耗的降
低,如 Victim唱TLB
[8]
和 Filter唱TLB
[9,10]
等。 在两级 TLB 访问机
制中,第一级 TLB 表项较少,查询速度很快,第二级表项多,查
询速度较慢。 由于程序访问的空间特性,第一级 TLB 能够完
成绝大部分地址转换工作,避免了对第二级 TLB 存储器的频
繁访问,不仅节约了匹配时间,同时显著降低了第二级 TLB 的
动态功耗
[11]
。 但是当第一级 TLB 发生缺失时,则需多个时钟
周期访问第二级 TLB,性能和功耗损失严重。 第二级 TLB 访
问延时和功耗成为两级 TLB 架构功耗的重要组成部分。
本文提出的低功耗 TLB 快速访问机制是分层结构的,第
二级 TLB 基于普通单端口 SRAM,使用 SRAM 可避免 CAM 的
成本和功耗问题,并且可增加 TLB 工艺跃迁的灵活性。
第 28 卷第 8 期
2011 年 8 月
计 算 机 应 用 研 究
Application Research of Computers
Vol畅28 No畅8
Aug畅2011