没有合适的资源?快使用搜索试试~ 我知道了~
2020春-lecture131
需积分: 0 0 下载量 28 浏览量
2022-08-03
18:31:08
上传
评论
收藏 967KB PDF 举报
温馨提示
![preview](https://dl-preview.csdnimg.cn/86300340/0001-0a3e60b31ea07b4be0f799e438ad642c_thumbnail.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
试读
32页
• 第五章:5.8• 推荐阅读• Mike Flynn, “Very High-Speed Computing Systems,” Proc. of IEEE,
资源详情
资源评论
资源推荐
![](https://csdnimg.cn/release/download_crawler_static/86300340/bg1.jpg)
1
高等计算机体系结构
第十三讲:多处理器与多处理
栾钟治
北京航空航天大学 计算机学院 中德联合软件研究所
2020-06-12
提醒: 作业
• 作业 6
• 已发布,6月19日截止
• 预取和并行
2
实验2-5
• 5月10日发布,预计7月10日截止
3
阅读材料
• 并行和多处理
• 必读
• Amdahl, “Validity of the single processor approach to achieving large scale
computing capabilities,” AFIPS 1967.
• Lamport, “How to Make a Multiprocessor Computer That Correctly Executes
Multiprocess Programs,” IEEE Transactions on Computers, 1979
• Patterson & Hennessy‘s Computer Organization and Design: The
Hardware/Software Interface (计算机组成与设计:软硬件接口)
• 第五章:5.8
• 推荐阅读
• Mike Flynn, “Very High-Speed Computing Systems,” Proc. of IEEE, 1966
• Hill, Jouppi, Sohi, “Multiprocessors and Multicomputers,” pp. 551-560 in
Readings in Computer Architecture.
• Hill, Jouppi, Sohi, “Dataflow and Multithreading,” pp. 309-314 in Readings in
Computer Architecture.
• Papamarcos and Patel, “A low-overhead coherence solution for
multiprocessors with private cache memories,” ISCA 1984.
4
1 2
3 4
![](https://csdnimg.cn/release/download_crawler_static/86300340/bg2.jpg)
2
回顾:虚拟存储与cache的交互
• 什么时候需要做地址翻译?
• 换句话说, cache是虚拟编址还是物理编址?
5
CPU
TLB
cache
更底层
物理 cache
CPU
cache
TLB
更底层
虚拟 (L1) cache
VA
PA
CPU
cache TLB
更底层
虚拟-物理 cache
VA
PA
VA
PA
回顾:虚拟-索引,物理-标签
• 如果 Cache ≤ (页大小 相联度), cache索引位只来自
页的偏移量部分 (在虚拟地址和物理地址中相同)
• 如果片内有cache和TLB
• 用虚拟地址同时索引cache和TLB
• cache检查标签(物理的)并比对TLB的输出给出结果
• 如果 Cache > (页大小 相联度), cache索引位将包含
VPN “同义词”会引发问题
• 同音异义词:相同的声音不同的含义
• 同一个虚拟地址可能映射到两个不同的物理地址
• 同义词:不同的声音相同的含义
• 不同的虚拟地址可能映射到同一个物理地址
6
回顾:虚拟存储与DRAM 的交互
• 操作系统会影响DRAM中的地址映射
• 操作系统能够控制虚页映射到哪一个bank/channel/rank
• 可以通过页着色最小化bank的冲突
• 或者最小化应用之间的干扰
7
列 (11 bits)
Bank (3 bits)
行 (14 bits)
BiB(3 bits)
页偏移量(12 bits)物理帧号(19 bits)
页偏移量(12 bits)虚拟页号(52 bits)
VA
PA
PA
回顾:访存延迟容忍
• 由长延迟指令导致的停顿
• 满窗口停顿
• L2 cache的缺失是导致满窗口停顿的最主要原因
• 如何容忍内存导致的停顿?
• 两种主要方法
• 减少/消除停顿
• 当停顿发生时容忍它的影响
• 四种基本技术
• 高速缓存
• 预取
• 多线程
• 乱序执行
8
有很多技术使这四种基本技术在容忍存储延迟时更加有效
5 6
7 8
![](https://csdnimg.cn/release/download_crawler_static/86300340/bg3.jpg)
3
回顾:预取
• 思路: 在程序需要使用之前取数据
• 包括预测哪个地址会是未来需要的
• 预取时的错误预测不会影响正确性
• 现代系统中, 预取通常在cache块的粒度上实现
• 预取技术可以减小
• 缺失率
• 缺失延迟
• 预取可以在以下层面实现
• 硬件
• 编译器
• 程序员
9
回顾:预取的四个问题(I)
• What
• 预取什么地址
• 预取精度 = 有用的预取/ 发出的预取
• 基于过去访问模式的预测
• 利用编译器关于数据结构的知识
• 预取算法决定预取什么
• When
• 何时发起预取请求
• 数据被预取的时机影响一个预取器的及时性指标
• 更加的激进: 尽量保持领先处理器访问流的幅度(硬件)
• 在代码中更早的发起预取指令(软件)
10
回顾:预取的四个问题(II)
• Where
• 预取的数据放到哪儿
• 放到cache里
• 放到独立的预取缓冲中
• 很多现代系统将预取数据放入cache
• 预取到哪个级别的cache?
• 在cache里把预取的数据放到哪儿?
• 需要调整替换策略以使它能够更优待按需取的块吗?
• 硬件预取器应该放在分层存储结构的什么位置?
• 预取器应该看到什么样的访问模式?
• How
• 软件、硬件、基于执行……
11
• 软件预取
• ISA 提供预取指令
• 程序员或编译器插入预取指令
• 通常只对”常规的访问模式”有效
• 硬件预取
• 硬件监控处理器的存取
• 记录或者发现模式
• 自动生成预取地址
• 基于执行的预取器
• 执行一个 “线程” 为主程序预取数据
• 可以通过软件/程序员或者硬件生成
12
回顾:预取的四个问题(III)
9 10
11 12
![](https://csdnimg.cn/release/download_crawler_static/86300340/bg4.jpg)
4
回顾:预取器性能
• 精度 (有用的预取 / 发出的预取)
• 覆盖率 (预取的缺失 / 所有的缺失)
• 及时性 (准时的预取 / 有用的预取)
• 带宽消耗
• 有/没有预取器时,存储带宽的消耗
• 好消息: 可以利用空闲时的总线带宽
• Cache污染
• 由于预取放在cache中导致的额外的按需访问缺失
• 很难量化,但是会影响性能
13
回顾:如何预取不规则访问模式?
• 规则模式: 跨度, 流预取器
• 不规则访问模式
• 间接数组访问
• 链式数据结构
• 多跨度(1,2,3,1,2,3,1,2,3,…)
• 随机模式?
• 针对所有模式的通用预取器?
• 基于相关性的预取器
• 基于内容的预取器
• 基于预计算或预执行的预取器
14
并行
15
并行结构
• 为什么采用并行结构
• 绝对性能
• 功耗和能耗
• 复杂度
• 性能价格比
• 关键的使能因素
• 半导体和互连网络技术的发展
• 软件技术的发展
16
13 14
15 16
![](https://csdnimg.cn/release/download_crawler_static/86300340/bg5.jpg)
5
并行机
• 定义: 并行机就是一系列能够通过协同和通信来快速
解决大规模问题的处理单元的集合 --- Almasi and
Gottlieb
• “…处理单元的集合…”
• 多少个? 每个处理单元的能力有多强? 可扩展性如何?
• “…能够通信…”
• 如何通信? (shared-memory 还是 message passing)
• 互连网络的结构如何? (bus, crossbar, multistage…)
• 评价指标: cost, latency, throughput, scalability,
fault tolerance
17
并行机(续)
• “… 能够协同…”
• 重要的问题有:synchronization, granularity, and
autonomy
• 同步允许按顺序操作保证正确性
• 各种原语 (test&set, fetch&add..)
• 粒度要与程序中的子任务大小相对应
• 减小粒度 Parallelism, Communication, Overhead increase
• 粒度 vs 指令数
• Program level: 10^6 instr
• Task level: 10^3 – 10^6 instr
• Loop level: 10 – 1000 instr
• Stmt/instr level: 1 – 10 instr
• 自治性: tradeoff
18
并行机(续)
• “… 快速解决大规模问题…”
• 通用 vs 专用?
• 任何机器都可以很好的解决某一类问题
• 什么样的应用适合并行处理?
• 高并行应用
• 很多科学计算利用数据的并行性 (MonteCarlo)
• 中并行应用
• 很多工程性的应用(有限元, VLSI-CAD)
• 不太并行的应用
• 需要考虑应用和机器的规模
19
并行机的分类
• Michael Flynn的分类
• 基于模型的分类
20
17 18
19 20
剩余31页未读,继续阅读
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![avatar](https://profile-avatar.csdnimg.cn/0f7c3a248a764f229ea6b1bb25a96da1_weixin_35830006.jpg!1)
df595420469
- 粉丝: 26
- 资源: 310
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)
评论0