数据段描述符和代码段描述符（一）——《x86汇编语言：从实模式到保护模式》读书笔记10

zoukankan html css js c++ java

数据段描述符和代码段描述符（一）——《x86汇编语言：从实模式到保护模式》读书笔记10
一、段描述符的分类

在上一篇博文中已经说过，为了使用段，我们必须要创建段描述符。80X86中有各种各样的段描述符，下图展示了它们的分类。

看了上图，你也许会说：天啊，怎么这么多段描述符啊！我可怎么记住呢？别担心，我会在以后的博文中，跟随原书的作者，为您逐步介绍。我们的学习是循序渐进的，所以不要求一下子掌握所有东西。我们的原则是：用到什么学什么。我们今天的重点是“存储段描述符”。

二、段描述符的通用格式^[1]

段描述符是GDT和LDT中的一个数据结构项，用于向处理器提供有关一个段的位置、大小以及访问控制的状态信息。每个段描述符的长度是8个字节，含有3个主要字段：
- 段基地址
- 段限长
- 段属性
段描述符通常由编译器，链接器，加载器或者操作系统来创建，但绝不是应用程序。

下图给出了所有类型的段描述符的一般形式。

1.段限长字段Limit

用于指定段的长度。处理器会把段描述符中两个段限长字段组合成一个20位的值，并根据颗粒度标志G来指定段限长Limit值的实际含义。

如果G=0，则Limit值的单位是B，也就是说Limit的范围可以是1B到1MB；

如果G=1，则Limit值的单位是4KB，也就是说Limit的范围可以是4KB到4GB。

根据段类型字段TYPE中的段扩展方向标志E，处理器可以以两种不同的方式使用Limit。

E=0：表示向上扩展的段（简称上扩段），逻辑地址中的偏移值范围可以从0到Limit；

E=1：表示向下扩展的段（简称下扩段），逻辑地址中的偏移范围可以从Limit到0xFFFF（当B=0时）或者0xFFFF_FFFF（当B=1时）。关于B位，后面将解释。

2.基地址字段Base

该字段定义在4GB线性地址空间中一个段的字节0所处的位置。也许你觉得这句话不好理解，我们换一种说法：对于一个逻辑地址，如果段内偏移为0，那么这个逻辑地址对应的线性地址就是Base；如果段内偏移为X，那么这个逻辑地址对应的线性地址就是Base+X；

段基地址可以是0~4GB范围内的任意地址（这同实模式不同，实模式下段基地址要求16字节对齐），但是，为了让程序具有最佳性能，还是建议段基地址对齐16字节边界。

3.段类型字段TYPE

该字段用于指定段或者门（Gate）的类型、说明段的访问种类以及段的扩展方向。该字段的解释依赖于描述符类型标志S；TYPE字段的编码对代码段、数据段或者系统描述符都不同。

4.描述符类型标志S

S=0：表示存储段描述符。所谓“存储段”，就是存放可由程序直接进行访问的代码和数据的段。说白了，存储段就是代码段或者数据段。

S=1：表示系统描述符。

5.描述符特权级字段DPL

用于指明描述符的特权级。特权级范围从0（最高）到3（最低）。DPL字段用于控制对段的访问。

6.段存在标志P

用于指出一个段是在内存中（P=1）还是不在内存中（P=0）.

7.D/B（默认操作数大小/默认栈指针大小和上界限）

对于代码段，此位称为“D”位；对于栈段，此位称为“B”位。我们在后文会说。

8.颗粒度标志G

该字段用于确定段限长字段Limit值的单位。

如果G=0，则Limit值的单位是B；

如果G=1，则Limit值的单位是4KB；

注意：这个字段不影响段基地址的颗粒度，基地址的颗粒度总是以字节为单位。

9.可用和保留位

L位（就是上图灰色的那个位）：是64位代码段标志，保留此位给64位处理器使用。目前，我们将此位置“0”即可。

AVL：是软件可以使用的位，通常由操作系统来用，处理器并不使用它。

三、数据段描述符^[1]

当S=1且TYPE字段的最高位（第2个双字的位11）为0时，表明是一个数据段描述符。

下图是数据段描述符的格式。

1.B位（默认栈指针大小和上界限）

对于栈段（由SS寄存器指向的数据段）来说，该位用来指明隐含堆栈操作（如PUSH、POP或CALL）时的栈指针大小。

B=0：使用SP寄存器

B=1：使用ESP寄存器

同时，B的值也决定了栈的上部边界。

B=0：栈段的上部边界（也就是SP寄存器的最大值）为0xFFFF;

B=1：栈段的上部边界（也就是ESP寄存器的最大值）为0xFFFF_FFFF.

2.A位（已访问）

用于表示一个段最近是否被访问过（准确地说是指明从上次操作系统清零该位后一个段是否被访问过）。

当创建描述符的时候，应该把这位清零。之后，每当该段被访问时（准确地说是处理器把这个段的段选择符加载进段寄存器时，也许你不懂这句话，没有关系，现在忽略就可以了。）它就会将该位置“1”；对该位的清零是由操作系统负责的，通过定期监视该位的状态，就可以统计出该段的使用频率。当内存空间紧张时，可以把不经常使用的段退避到硬盘上，从而实现虚拟内存管理。

3.W位（可写）

指示段的读写属性。

W=0：段不允许写入，否则会引发处理器异常中断；

W=1：允许写入。

4.E位（扩展方向）

E=0：表示向上扩展的段（简称上扩段），逻辑地址中的偏移值范围可以从0到Limit；

E=1：表示向下扩展的段（简称下扩段，通常是栈段），逻辑地址中的偏移范围可以从Limit到0xFFFF（当B=0时）或者0xFFFF_FFFF（当B=1时）。

四、代码段描述符^[1]

当S=1且TYPE字段的最高位（第2个双字的位11）为1时，表明是一个代码段描述符。

下图是代码段描述符的格式。

1.D位（默认操作数大小）

用于指出该段中的指令引用有效地址和操作数的默认长度。

D=0：默认值是16位的地址和16位或者8位的操作数；

D=1：默认值是32位的地址和32位或者8位的操作数；

说明：指令前缀0x66可以用来选择非默认值的操作数大小，指令前缀0x67可以用来选择非默认值的地址大小。

2.A位（已访问）

与数据段描述符中的A位相同。

3.R位（可读）

R=0：代码段不可读，只能执行。

R=1：代码段可读，可执行。

也许有人会问，当R=0时，既然代码段不可读，那处理器怎么从里面取指令执行呢？事实上，这里的R属性并非针对处理器，而是用来限制程序的行为。当常数或者静态数据被放在了一个ROM中时，就可以使用一个可读可执行的代码段，然后通过使用带CS前缀的指令，就可以读取代码段中的数据。

注意：
- 在保护模式下，代码段是不可写的。
- 堆栈段必须是可读可写的数据段。
4.C位（一致性）

C=0：表示非一致性代码段。这样的代码段可以被同级代码段调用，或者通过门调用；

C=1：表示一致性代码段。可以从低特权级的程序转移到该段执行（但是低特权级的程序仍然保持自身的特权级）。

注意：所有的数据段都是非一致性的，即意味着它们不能被低特权级的程序或过程访问。然而与代码段不同，数据段可以被更高特权级的程序或过程访问，而无需使用特殊的访问门。

有关特权级和特权级检查我们以后再讨论，这里对上面的概念了解即可，不用深究。

最后，补充一张图表，也是引用自赵炯的《Linux内核完全剖析》。

参考资料：

[1]：赵炯，《Linux内核完全剖析》，机械工业出版社. 4.3.4节
查看全文

相关阅读:
视频会议保险行业解决方案
 如何选择适合企业的音视频解决方案？
移动视频会议市场
 网络视频通讯服务器和平台发展
 移动互联网化的远程医疗
 智能家居行业的音视频技术
 Ubuntu15.04 安装Android开发环境
 AspNetPager 自定义html
SqlDataReader对象的NextResult方法读取存储过程多个结果集
 一些原生云APP