ELF文件
在学习之前我们先看看ELF文件。
ELF分为三种类型:.o 可重定位文件(relocalble file),可执行文件以及共享库(shared library),三种格式基本上从结构上是一样的,只是具体到每一个结构不同。
下面我们就从整体上看看这3种格式从文件内容上存储的方式,spec上有张图是比较经典的:如上图:
其实从文件存储的格式来说,上面的两种view实际上是一样的,Segment实际上就是由section组成的,将相应的一些section映射到一起就叫segment了,就是说segment是由0个或多个section组成的,实际上本质都是section。
在这里我们首先来仔细了解一下section和segment的概念:
section就是相同或者相似信息的集合,比如我们比较熟悉的.text .data .bss section,.text是可执行指令的集合,.data是初始化后数据的集合,.bss是未初始化数据的集合。
实际上我们也可以将一个程序的所有内容都放在一起,就像dos一样,但是将可执行程序分成多个section是很有好处的,比如说我们可以将.text section放在memory的只读空间内,将可变的.data section放在memory的可写空间内。
从可执行文件的角度来讲,如果一个数据未被初始化那就不需要为其分配空间,所以.data和.bss一个重要的区别就是.bss并不占用可执行文件的大小,它只是记载需要多少空间来存储这些未初始化数据,而不分配实际的空间。
可以通过命令 $ readelf -l a.out 查看文件的格式和组成。
size - list section sizes and total size是GNU Development Tools,列出目标文件各个部分所占的字节数,当不输入目标文件时,将会把a.out文件作为缺省输入文件名。
...$ size a.out
text data bss dec hex filename
9658 736 8 10402 28a2 a.out
输出各段说明:
- text段:正文段字节数大小
- data段:包含静态变量和已经初始化的全局变量的数据段字节数大小
- bss段:存放程序中未初始化的全局变量的字节数大小(包含初始化为0的),BBS段属于静态内存分配
- text段+data段+bss段=dec段(10进制),hex段为16进制表示
对输出各段的更详细的说明&C程序的存储空间布局:
1.text段(正文段/代码段),这是由CPU执行的机器指令部分,通常是可共享的,所以即使是频繁执行的程序(如文本编辑器、C编译器和shell等)在存储器中也只需要有一个副本。通常是指用来存放程序执行代码的一块内存区域。这部分区域的大小在程序运行前就已经确定,并且内存区域通常属于只读, 某些架构也允许代码段为可写,即允许修改程序。在代码段中,也有可能包含一些只读的常数变量,例如字符串常量等。
2.data段/数据段(初始化数据段),通常是指用来存放程序中已初始化的全局变量的一块内存区域。数据段属于静态内存分配。
3.bss段(未初始化数据段),在程序开始执行之前,内核将此段中的数据初始化为0或空指针。由于BSS段只保存没有值的变量,所以事实上它并不需要保存这些变量的映像。运行时所需要的BSS段的大小记录在目标文件中,但BSS段并不占据目标文件的任何空间。
4. 栈(Stack),又称为堆栈,自动变量以及每次函数调用是所需保存的信息都存放在此段中。是用户存放程序临时创建的局部变量,也就是说我们函数括弧“{} ”中定义的变量(但不包括static 声明的变量,static 意味着在数据段中存放变量)。除此以外,在函数被调用时,其参数也会被压入发起调用的进程栈中,并且待到调用结束后,函数的返回值也会被存放回栈中。由于栈的先进后出特点,所以栈特别方便用来保存/ 恢复调用现场。从这个意义上讲,我们可以把堆栈看成一个寄存、交换临时数据的内存区。
5.堆(Heap),堆是用于存放进程运行中被动态分配的内存段,它的大小并不固定,可动态扩张或缩减。当进程调用malloc 等函数分配内存时,新分配的内存就被动态添加到堆上(堆被扩张);当利用free 等函数释放内存时,被释放的内存从堆中被剔除(堆被缩减)。
堆与栈的区别:
1. 堆栈空间分配
栈(操作系统):由操作系统自动分配释放 ,存放函数的参数值,局部变量的值等。其操作方式类似于数据结构中的栈。
堆(操作系统): 一般由程序员分配释放, 若程序员不释放,程序结束时可能由OS回收,分配方式倒是类似于链表。
2. 堆栈缓存方式
栈使用的是一级缓存, 他们通常都是被调用时处于存储空间中,调用完毕立即释放。
堆则是存放在二级缓存中,生命周期由虚拟机的垃圾回收算法来决定(并不是一旦成为孤儿对象就能被回收)。所以调用这些对象的速度要相对来得低一些。
3. 堆栈数据结构区别
栈(数据结构):一种先进后出的数据结构。
堆(数据结构):堆可以被看成是一棵树,如:堆排序。
不同代码在可执行程序中的对应关系
1.一般情况下,一个可执行二进制程序(更确切的说,在Linux操作系统下为一个进程单元,在UC/OSII中被称为任务)在存储(没有调入到内存运行)时拥有3个部分,分别是代码段(text)、数据段(data)和BSS段。这3个部分一起组成了该可执行程序的文件。
可执行二进制程序 = 代码段(text)+数据段(data)+BSS段
2.而当程序被加载到内存单元时,则需要另外两个域:堆域和栈域。图1-1所示为可执行代码存储态和运行态的结构对照图。一个正在运行的C程序占用的内存区域分为代码段、初始化数据段、未初始化数据段(BSS)、堆、栈5个部分。
正在运行的C程序 = 代码段+初始化数据段(data)+未初始化数据段(BSS)+堆+栈
3.在将应用程序加载到内存空间执行时,操作系统负责代码段、数据段和BSS段的加载,并将在内存中为这些段分配空间。栈亦由操作系统分配和管理,而不需要程序员显示地管理;堆段由程序员自己管理,即显示地申请和释放空间。
文件布局在内存中的映射:
段可以方便地映射到链接器在运行时可以直接载入的对象中,载入器只是取文件中的每个段的映像,并直接将他们放入内存中。
下图为可执行文件中的段在内存中的布局,右边是进程的地址空间。
注意虚拟地址空间的最低部分未被映射。也就是说,它位于进程的地址空间,但并未赋予物理地址,所以任何对它的引用都是非法的。
在考虑到共享库时,进程的地址空间的样子如下图:
参考:
https://blog.csdn.net/RHEL_admin/article/details/43055649
https://blog.csdn.net/qq_37924084/article/details/78154044
https://blog.csdn.net/zdy0_2004/article/details/42296109
https://blog.csdn.net/qq_28388835/article/details/80374518
https://blog.csdn.net/love_gaohz/article/details/41310597
C专家编程 6.2节