论文研究-基于循环体访问过滤的低功耗分支目标缓冲器.pdf资源-CSDN文库

分支目标缓存,循环过滤,分支踪迹,功耗节省,性能补偿

需积分: 15 82 浏览量 2019-07-22 18:26:10 上传评论收藏 495KB PDF 举报

资源详情

资源评论

资源推荐

收稿日期：２０１１唱０８唱１０；修回日期：２０１１唱０９唱２０

作者简介：高金加（１９８６唱），男，浙江嘉兴人，硕士研究生，主要研究方向为计算机体系结构、超大规模集成电路设计（ｇａｏｊｊ＠ｖｌｓｉ．ｚｊｕ．ｅｄｕ．ｃｎ）；

孟建熠（１９８２唱），男，博士，主要研究方向为高性能低功耗嵌入式ＣＰＵ设计、超大规模集成电路设计；陈志坚（１９８４唱），男，博士，主要研究方向为高

性能低功耗嵌入式ＣＰＵ设计、超大规模集成电路设计．

基于循环体访问过滤的低功耗分支目标缓冲器

高金加，孟建熠，陈志坚

（浙江大学超大规模集成电路设计研究所，杭州３１００２７）

摘　要：分支目标缓存（ＢＴＢ）是高端嵌入式ＣＰＵ的主要耗能部件之一。针对ＢＴＢ访问中引入的冗余功耗问题，

提出了一种循环体访问过滤机制消除循环体指令流中顺序指令对ＢＴＢ的无效访问。进一步提出了一种分支跟踪

方法补偿循环过滤机制对循环体中非循环类分支指令的错误过滤造成的性能损失，节省了循环体指令流中顺序指

令访问ＢＴＢ的大量冗余功耗。基于Ｐｏｗｅｒｓｔｏｎｅ基准程序的仿真实验表明，在１２８表项ＢＴＢ配置下，二级循环过滤

器和４表项分支踪迹表可以减少约７１．９％的ＢＴＢ功耗，而平均每条指令周期数（ＣＰＩ）退化仅为０．６６％。

关键词：分支目标缓存；循环过滤；分支踪迹；功耗节省；性能补偿

中图分类号：ＴＰ３９３畅０４　　　文献标志码：Ａ　　　文章编号：１００１唱３６９５（２０１２）０３唱０９９８唱０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１唱３６９５．２０１２．０３．０５４

Ｌｏｗｐｏｗｅｒｂｒａｎｃｈｔａｒｇｅｔｂｕｆｆｅｒｂａｓｅｄｏｎｌｏｏｐａｃｃｅｓｓｆｉｌｔｅｒｉｎｇ

ＧＡＯＪｉｎ唱ｊｉａ，ＭＥＮＧＪｉａｎ唱ｙｉ，ＣＨＥＮＺｈｉ唱ｊｉａｎ

（ＩｎｓｔｉｔｕｔｅｏｆＶＬＳＩＤｅｓｉｇｎ，ＺｈｅｊｉａｎｇＵｎｉｖｅｒｓｉｔｙ，Ｈａｎｇｚｈｏｕ３１００２７，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｂｒａｎｃｈｔａｒｇｅｔｂｕｆｆｅｒ（ＢＴＢ）ｉｓｏｎｅｏｆｔｈｅｍｏｓｔｐｏｗｅｒ唱ｈｕｎｇｒｙｃｏｍｐｏｎｅｎｔｓｉｎｈｉｇｈ唱ｐｅｒｆｏｒｍａｎｃｅｅｍｂｅｄｄｅｄＣＰＵｓ．

ＴｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｌｏｏｐａｃｃｅｓｓｆｉｌｔｅｒｉｎｇｍｅｃｈａｎｉｓｍｔｏｅｌｉｍｉｎａｔｅｔｈｅｒｅｄｕｎｄａｎｔＢＴＢｏｐｅｒａｔｉｏｎｓｆｏｒｓｅｑｕｅｎｔｉａｌｉｎｓｔｒｕｃｔｉｏｎｓｉｎ

ｌｏｏｐｓ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｉｔｐｒｏｐｏｓｅｄａｂｒａｎｃｈｔｒａｃｉｎｇｍｅｔｈｏｄｔｏｃｏｍｐｅｎｓａｔｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｐｅｎａｌｔｙｄｕｅｔｏｔｈｅｏｖｅｒ唱ｆｉｌｔｅｒｉｎｇｏｆｔｈｅ

ｌｏｏｐｆｉｌｔｅｒｆｏｒｔｈｅｎｏｔ唱ｌｏｏｐｂｒａｎｃｈｉｎｓｔｒｕｃｔｉｏｎｓ．ＩｔｃｏｕｌｄｒｅｄｕｃｅｒｅｍａｒｋａｂｌｅＢＴＢｐｏｗｅｒｃｏｎｓｕｍｐｔｉｏｎｂｙｒｅｍｏｖｉｎｇｓｅｑｕｅｎｔｉａｌｉｎ唱

ｓｔｒｕｃｔｉｏｎｓａｃｃｅｓｓｉｎｇｔｈｅＢＴＢ．ＳｉｍｕｌａｔｉｏｎｏｎＰｏｗｅｒｓｔｏｎｅｂｅｎｃｈｍａｒｋｄｅｍｏｎｓｔｒａｔｅｓｔｈａｔｕｎｄｅｒｔｈｅｃｏｎｆｉｇｕｒａｔｉｏｎｏｆ１２８唱ｅｎｔｒｙ

ＢＴＢ，ｔｗｏ唱ｌｅｖｅｌｌｏｏｐｆｉｌｔｅｒａｎｄ４唱ｅｎｔｒｙｂｒａｎｃｈｔｒａｃｅｔａｂｌｅｃａｎａｃｈｉｅｖｅａｐｐｒｏｘｉｍａｔｅｌｙ７１．９％ｐｏｗｅｒｒｅｄｕｃｔｉｏｎｗｈｉｌｅｏｎｌｙｂｒｉｎｇ

０．６６％ｃｙｃｌｅｌｏｓｓｐｅｒｉｎｓｔｒｕｃｔｉｏｎ（ＣＰＩ）ｏｎａｖｅｒａｇｅ．

Ｋｅｙｗｏｒｄｓ：ｂｒａｎｃｈｔａｒｇｅｔｂｕｆｆｅｒ；ｌｏｏｐｆｉｌｔｅｒｉｎｇ；ｂｒａｎｃｈｔｒａｃｉｎｇ；ｐｏｗｅｒｒｅｄｕｃｔｉｏｎ；ｐｅｒｆｏｒｍａｎｃｅｃｏｍｐｅｎｓａｔｉｏｎ

０　引言

深流水线技术是高端嵌入式ＣＰＵ的主要发展趋势，而以

分支为代表的控制相关性问题对性能的负面影响随着流水线

深度的增加而不断增大。据统计，当流水线深度增加至７～８

级时，处理器平均吞吐率的下降幅度超过３０％

［１］

。降低控制

相关性对流水线造成的影响已成为嵌入式ＣＰＵ的重要研究

内容。

目前，嵌入式处理器主要通过分支预测技术来解决控制相

关性。分支目标缓存（ＢＴＢ）通过在流水线前级提前进行分支

目标地址预测，实现分支指令的快速处理与目标指令的预取，

可有效减少程序流分支延时。由于ＢＴＢ需要缓存分支指令地

址与分支目标地址，硬件开销与访问功耗都较大。以Ｐｅｎｔｉｕｍ

Ｐｒｏ为例，５１２表项的ＢＴＢ功耗占了整个处理器功耗的５％

［２］

。

在传统ＢＴＢ设计中，ＢＴＢ与指令高速缓存（ｃａｃｈｅ）的访问

通常是并行的，因此ＢＴＢ访问阶段尚不能获得指令的解码信

息。为了不丢失指令流中随时可能出现的分支指令的目标地

址，取指单元每个取指周期都需要对ＢＴＢ进行访问。但实际

统计表明，分支指令仅占指令总数的１２％

［３］

，意味着约８８％的

ＢＴＢ访问功耗是冗余的。

当前ＢＴＢ低功耗相关研究主要包括两方面：ａ）降低每次

ＢＴＢ访问的动态功耗；ｂ）减少ＢＴＢ的冗余访问次数。Ｗａｎｇ等

人

［４］

提出了一种ＢＴＢ访问过滤方法（ＢＡＦ），该方法增加了一

个ＦｉｌｔｅｒＢＴＢ（ＦＢ），仅当分支预测跳转且ＦＢ缺失时，才会访问

主ＢＴＢ。该方法中ＦＢ会引入较大的额外硬件开销，且ＦＢ缺

失会导致ＢＴＢ访问延时增加。Ｐｅｔｒｏｖ等人

［５］

提出了一种

ＡＣＢＴＢ（ａｐｐｌｉｃａｔｉｏｎｃｕｓｔｏｍｉｚａｂｌｅｂｒａｎｃｈｔａｒｇｅｔｂｕｆｆｅｒ）的软／硬件

协同优化方法，通过软件ｐｒｏｆｉｌｉｎｇ获取程序的精确控制流信

息，从而控制ＢＴＢ只在分支指令取指时访问。ＡＣＢＴＢ使用静

态编译技术，不适用于已完成编译链接的可执行程序，且

ＡＣＢＴＢ需要一个可编程的硬件架构，增加了设计复杂度和硬

件成本。Ｃｈａｎｇ

［６］

提出了一种ＬａｚｙＢＴＢ的方法，将若干基本块

折合成一个ｔａｋｅｎｔｒａｃｅ，仅在ｔａｋｅｎｔｒａｃｅ末尾访问ＢＴＢ；喻明艳

等人

［７］

利用程序流中分支指令间距固定的特性提出了一种基

于跳转访问控制的ＨＡ唱ＢＴＢ（ｈｏｐａｃｃｅｓｓＢＴＢ）。这两种方法均

需在ＢＴＢ表项中增加额外的域记录分支间距，硬件开销较大，

且消耗额外功耗。陈志坚

［８］

提出了一种指令类型预测与分支

方向预测相结合的ＢＴＢ访问过滤方案，只有当当前取指指令

是一条分支指令且预测跳转时，才允许访问ＢＴＢ。该方案的缺

点是指令Ｃａｃｈｅ需增加额外域存储分支信息，同时跨Ｃａｃｈｅ

块

第２９卷第３期

２０１２年３月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．２９Ｎｏ．３

Ｍａｒ．２０１２

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论收藏

内容反馈

weixin_39840387

粉丝: 784
资源: 3万+

论文研究-基于循环体访问过滤的低功耗分支目标缓冲器.pdf

评论0

最新资源

论文研究-基于循环体访问过滤的低功耗分支目标缓冲器.pdf

评论0

论文研究-基于循环的指令高速缓存访问预测方法.pdf

论文研究-基于循环仿真的钢铁板坯库天车作业优化.pdf

论文研究-基于循环核矩阵的自适应目标跟踪算法.pdf

论文研究-基于循环修正思路的科学发展评价模型.pdf

论文研究-基于AHP-模糊推理的甘肃省循环经济发展度实证分析.pdf

论文研究-基于控制流的代码混淆技术研究.pdf

论文研究-基于小波和相关分析的滚动轴承故障诊断研究 .pdf

论文研究-基于循环码的湿纸隐写码.pdf

论文研究-基于有限感知的决策理性模型.pdf

论文研究-基于堆场混合堆存的集装箱码头装船顺序优化模型.pdf

论文研究-基于循环谱的微弱GPS信号检测方法研究 .pdf

论文研究-基于网络制造的仿生自组织协同进化.pdf

论文研究-结式循环矩阵的逆与广义逆.pdf

论文研究-基于陆海协同的海上战略投送选址-路径优化.pdf

论文研究-基于循环神经网络的流量预测算法 .pdf

论文研究-基于自适应颜色特征学习的目标跟踪技术.pdf

论文研究-基于系统动力学创建养种生物质能产业的理论应用研究.pdf

论文研究-基于循环谱的MPSK信号识别技术研究 .pdf

论文研究-基于循环平稳算法的调制方式识别 .pdf

STM32CubeMx6.4.0版本+JRE安装包

第十五届蓝桥杯嵌入式组省赛完整工程

KEIL5 常用stm32芯片包下载

ser2pl64.sys是电脑重要系统文件，主要用于串口转USB，描述：USB-to-Serial Cable Driver

CubeMX，6.11版本

心率模块，MAX30102模块+oled模块，stm32f103 hal库完整代码

第十四届蓝桥杯省赛电子类嵌入式组完整工程代码

第十五届蓝桥杯嵌入式省赛真题题目和答案

“ 官网 ”最新版-《Arm Compiler 5.06 update 7 (build 960) Lin32》

最新资源