系统架构设计师教程（第四版）笔记整理（二） 1.2 存储器系统、1.3流水线

平均存取速度=Cache存取速度×Cache命中率+主存存取速度×失效率得出：
(98%×10 ns+2%×100 ns)+1/5×(95%×10 ns+5%×100 ns)=14.7 ns≈15 ns(这里要注意题中条件的各单位与最后计算结果的单位要一致)

（对1/5这块不太能读懂，我理解能力可能比较差吧。。。）

2.映射机制

当CPU发出访存请求后，存储器地址先被送到Cache控制器以确定所需数据是否已在Cache中，若命中则直接对Cache进行访问。这个过程称为：Cache的地址映射（映像）。

在Cache的地址映射中，主存和Cache将均分成容量相同的块（页）。

常见的映射方法有：直接映射、全相联映射和组相联映射。

　　（1）直接映像

　　　　直接映像方式以随机存取存储器作为Cache存储器，硬件电路较简单。在进行映像时，主存地址被分成三个部分，

从高到低依次为：区号、页号以及页内地址。

　　本例中，内存容量为1GB，Cache 容量为8MB,页面的大小为512KB。

　　直接映射中，先分区，再分页。

一个区的大小就是Cache容量的大小，

1GB的内存容量一共可以分为：1GB/8MB=129个区，区号7位。

每个区分：8MB/512KB=16个页，因为:2∧4=16，所以页号为4位。（开始自己这边不太清楚）

https://wenku.baidu.com/view/82852b9608a1284ac85043a1.html

在直接映像方式中，每个主存页只能复制到某一固定的Cache页中。

直接映像方式的映像规律是：主存中每个区的第0页，只能进入到Cache的第0页。

当前Cache中0号页已被占据，现要将1区第0页（即内存的16页）调入Cache，此时就会发生冲突。

直接映像的块冲突率非常高。

在Cache中，为每一页设立一个Cache标记，该标记用于识别当前的Cache块

来自于哪个内存页。

直接映像中，每个区的N号页，都必须进入到Cache的N号页，

所以只需要记录区号即可。根据（4）图中的标记位长度是7位。

直接映像方式的优点是比较容易实现，缺点是不够灵活，有可能使Cache的存储空间得不到充分利用。

（2）全相联映像

　　全相联映像使用相联存储器组成的Cache存储器。

在全相联映像方式中，主存的每一页可以映像到Cache的任一页。

如果淘汰Cache中每一页的内容，则可调入任一主存页的内容。

因而较直接映像方式灵活。

　　在全相联映像方式中，主存地址分为两个部分，

分别为地址部分（主存页标记）和数据部分（页内地址）。

数据部分用于存放数据，而地址部分则存放该数据的存储器地址。

给定的例子中，程序访存时，高11位给出主存页号，低19位给出页内地址。

因为每个Cache页可映像到2048个主存页中的任一页，

每页的Cache标记也需要11位，表明它现在所映像的主存页号。

Cache标记信息位数增加，比较逻辑成本随之增加。

在全相联映像方式中，主存地址不能直接提取Cache页号，

而是

需要将主存页标记与Cache各页的标记逐个比较，直到找到标记符合的页（访问Cache命中），

或者全部比较完后仍无符合的标记（访问Cache失败）。

因此这种映像方式速度很慢，失掉了高速缓存的作用，这是全相联映像方式的最大缺点。

如果让主存页标记与各Cache标记同时比较，则成本又太高。

全相联映像方式因比较器电路难于设计和实现，只适用于小容量Cache。

（3）组相联映像

　　组相联映像（页组映像）介于直接映像和全相联映像之间，是这两种映像的一种折中方案。

全相联映像方式以页为单位，可自由映像，没有固定的对应关系。

直接映像方式中，主存分组，主存组内的各页与Cache的页之间采取的是固定的映像关系，

但各组均可映像到Cache中。

在组相联映像方式中，主存与Cache都分组，

主存中一个组内的页数与Cache的分组数相同。

上例中：主存分128个区，每个区8个组，每个组2个页。组相联映像方式的主存地址组织：

　　组相联映像的规则是：主存中的组与Cache的组形成直接映像关系，每个组内的页是全相联映像关系。

书中举例：主存1区0页，他在0组中，所以只能进入Cache中的0组中，可任意放置到Cache的0组0页，或是0组1页，无强制要求。

在组相联映像中，Cache中每一页的标记位长度为8位，因为此时除了要记录区号，还得记录租号，即区号7位加组号1位等于8位。

如果Cache中每组只有一页，则组相联映像方式就变成了直接映像方式，

如果Cache每组页数为16页（即Cache只分一组），则就是全相联映像。

因此，在具体设计组相联映像时，可以根据设计目标选取某一折中值。

　　在组相联映像中，由于Cache中每组有若干可供选择的页，

因而它在映像定位方面较直接映像方式灵活；每组页数有限，因此付出的代价不是很大，可以根据设计目标选择组内页数。

希赛教育专家提示：为保障性能，内存与Cache之间的映射往往采用硬件完成，所以Cache对于程序员而言是透明的，程序员编程时，完全不用考虑Cache。

　　3.替换算法

　　　　当Cache产生了一次访问未命中之后，相应的数据应同时读入CPU和Cache。

但是当Cache已存满数据后，新数据必须替换（淘汰）Cache中的某些旧数据最常用的替换算法有以下三种：

　　（1）随机算法，这是最简单的替换算法。随机法完全不管Cache块过去、现在及将来的使用情况，简单地根据一个随机数，选择一块替换掉。

　　（2）先进先出（First In and First Out,FIFO）算法，按调入Cache的先后决定淘汰的顺序。

这种方法要求为每块做一记录，记下他们进入Cache的先后次序。这种方法容易实现，而且系统开销小。其缺点是可能会把一些需要经常使用的程序块（如循环程序）替换掉。

　　（3）近期最少使用（Least Recently Used,LRU）算法。LRU算法是把CPU近期最少使用的块作为被替换的块。

这种替换方法需要随时记录Cache中各块的使用情况，以便确定哪个块是近期最少使用的块。

LRU算法相对合理，但实现起来比较复杂，系统开销较大。

　　通常需要对每一块设置一个称为“年龄计数器”的硬件或软件计数器，用以记录其被使用的情况。

　　4.写操作

　　因为需要保证缓存在Cache中的数据与内存中的内容一致，相对读操作而言，Cache的写操作比较复杂。

　　（1）写直达（write through）,要写Cache时，数据同时写回内存，有时也称为写通。

　　　　某一块需要替换时，不必把这一块写回到主存中去，新调入的块可以立即把这一块覆盖掉。

　　　　这种方式：实现简单，可随时保持主存数据的正确性，但可能增加多次不必要的主存写入，降低存取速度。

　　（2）写回（write back），CPU修改Cache的某一块后，相应的数据并不立即写入内存单元，而是当该块从cache中被淘汰时，才把数据写回到内存中。

　　在采用这种更新策略的cache块表中，一般有一个标志位，当一块中的任何一个单元被修改时，标志位被置为“1”，

在需要替换掉这块时，如果标志位为“1”，则必须先把这一块写回到主存中去之后，才能调入新的块；

如果标志位为“0”，则这一块不必写回主存，只要用新调入的块覆盖掉这一块即可。

　　　　这种方法的优点是：操作速度快，缺点是：因主存中的字块未随时修改而有可能出错。

　　（3）标记法。对Cache中的每一个数据设置一个有效位。当数据进入Cache后，有效位置“1”；而当CPU要对该数据进行修改时，数据只需要写入内存并同时将该有效位置“0”。当要从Cache中读取数据时需要测试其有效位，若为“1”则直接从Cache中取数，否则，从内存中取数。

　　1.3流水线

　　　　流水线技术把一个任务分解为若干顺序执行的子任务，不同的子任务由不同的执行机构负责执行，

这些机构可以同时并行工作，在任一时刻，任一任务只占用其中一个执行机构，这样就可以实现多个任务的重叠执行，以提高工作效率。

1.3.1 流水线周期

　　　　流水线应用过程中，会将需要处理的工作分为N个阶段，最耗时的那一段所消耗的时间为流水线周期。

　　如：使用流水线技术执行100条指令，每条指令取值2ms，分析4ms，执行1ms，则流水线周期为4ms。

　　1.3.2计算流水线执行时间

　　　　将1个任务的执行过程可分成N个阶段，假设每个阶段完成时间为t，则完成该任务所需的时间即为Nt。

　　若以传统方式，则完成k个任务所需要的时间是kNt。

　　　　使用流水线技术执行，花费的时间就是：Nt+(k-1)t。第一个任务需要完整的时间，其他都通过并行。

　　　　流水线执行时间=第一条指令的执行时间+（n-1）*流水线周期

　　　　（n表示需要处理的任务数量）

　　考试注意事项：流水线的执行时间计算，其实进一步可分为理论情况与实践情况两种不同的处理方式。

　　　　例：某计算机系统，一条指令的执行需要经历取值（2ms）、分析（4ms）、执行（1ms）三个阶段，

　　现要执行100条指令，利用流水线技术需要多长时间？

　　　　理论上，1条指令的执行时间为：2ms+4ms+1ms=7ms。

　　　　　　所以：理论流水线执行时间=7ms+(100-1)*4=403ms。

　　　　实际上，真正做流水线处理时，考虑到处理的复杂性，会将指令的每个执行阶段的时间都统一为流水线周期，

　　　　　　即1条指令的执行时间为：4ms+4ms+4ms=12ms.

　　　　　　所以实际流水线执行时间=12ms+(100-1)*4ms=408ms。

　　　　希赛专家提示：考试时80%以上的概率采用理论公式计算，考试时需要通过理论公式计算，如果计算的结果无正确选项，才考虑采用实际公式计算。

　　　　1.3.3流水线的吞吐率

　　　　　　流水线的吞吐率（Though Put rate ,TP）是指在单位时间内流水线所完成的任务数量或输出的结果数量。

有些文献也称为：平均吞吐率、实际吞吐率。

　　计算流水线吞吐率的最基本公式：

　1.3.4流水线的加速比

　　　　在流水线中，因为在同一时刻，有多个任务在重叠地执行，虽然完成一个任务的时间与单独执行该任务相近（甚至由于分段的缘故，可能更多一些），但是从整体上看完成多个任务所需的时间则大大减少。

　　　完成同样一批任务，不使用流水线所用的时间与使用流水线所用的时间之比称为流水线的加速比（speedup ratio）。如果不使用流水线，

　　即顺序执行所用的时间为T0,使用流水线的执行时间为Tk,

　　　　则计算流水线加速比对的基本公式如下：

　　　如果流水线各个流水段的执行时间都相等（设为Dt）,则一条k段流水线完成n个连续任务所需要的时间为（k+n-1）Dt。

如果不使用流水线，即顺序执行这n个任务，则所需要的时间为nkDt。

　　因此，各个流水段执行时间均相等的一条k段流水线完成n个连续任务时的实际加速比为：

系统架构设计师教程（第四版）笔记整理（二） 1.2 存储器系统、1.3流水线

1.2 存储器系统

1.2.1 主存储器

2.只读存储器（Read Only Memory ,ROM）

1.2.2辅助存储器

1.2.3 Cache 存储器

1.3流水线

1.3.1 流水线周期

1.3.3流水线的吞吐率

1.3.4流水线的加速比