GNU编译器生成的目标文件缺省为elf格式,elf文件由若干段(section)组成,如不特殊指明,由C源程序生成的目标代码中包含如下段:
- .text(正文段)包含程序的指令代码;
- .data(数据段)包含固定的数据,如常量、字符串;
- .bss(未初始化数据段)包含未初始化的变量、数组等。
C++源程序生成的目标代码中还包括
- .fini(析构函数代码)
- .init(构造函数代码)等.
链接器的任务就是将多个目标文件的.text、.data和.bss等段链接在一起,而链接脚本文件是告诉链接器从什么地址开始放置这些段.简而言之,由于一个工程中有多个.c文件,当它们生成.o文件后如何安排它们在可执行文件中的顺序,这就是链接脚本的作用.
这里以u-boot的lds为例说明uboot的链接过程,首先看一下GNU官方网站上对.lds文件形式的完整描述:
SECTIONS {
...
secname start BLOCK(align) (NOLOAD) : AT ( ldadr )
{ contents } >region :phdr =fill
...
}
...
secname start BLOCK(align) (NOLOAD) : AT ( ldadr )
{ contents } >region :phdr =fill
...
}
其中,secname和contents是必须的,前者用来命名这个段,后者用来确定代码中的什么部分放在这个段,以下是对这个描述中的一些关键字的解释。
-
secname:段名
-
contents:决定哪些内容放在本段,可以是整个目标文件(如start.o),也可以是目标文件中的某段(代码段、数据段等)(如start.o (.text .rodata))
-
start:是段的重定位地址,本段链接(运行)的地址,如果代码中有位置无关指令,程序运行时这个段必须放在这个地址上。start可以用任意一种描述地址的符号来描述。
-
AT(ldadr):定义本段存储(加载)的地址,如果不使用这个选项,则加载地址等于运行地址,通过这个选项可以控制各段分别保存于输出文件中不同的位置。
例1
/* nand.lds */
SECTIONS {
firtst 0x00000000 : { head.o init.o }
second 0x30000000 : AT(4096) { main.o }
}
SECTIONS {
firtst 0x00000000 : { head.o init.o }
second 0x30000000 : AT(4096) { main.o }
}
其中,
-
head.o放在0x00000000地址开始处,init.o放在head.o后面,他们的运行地址也是0x00000000,即链接和存储地址 相同(没有AT指定);
-
main.o放在4096(0x1000,是AT指定的,存储地址)开始处,但它的运行地址在0x30000000,运行之前需要 从0x1000(加载地址处)复制到0x30000000(运行地址处),此过程也就需要读取 flash,把程序拷贝到相应位置才能运行。存储地址和运行地址,又称为加载时域和运行时域,可以在.lds链接脚本文件中分别指定。
例2
ENTRY(begin)
SECTION
{
.=0x00300000;
.text : { *(.text) }
.data: { *(.data) }
.bss: { *(.bss) }
}
SECTION
{
.=0x00300000;
.text : { *(.text) }
.data: { *(.data) }
.bss: { *(.bss) }
}
其中,
- ENTRY(begin)指明程序的入口点为begin标号;
- .=0x00300000指明目标代码的起始地址为0x00300000,这一段地址可以是SDRAM的起始地址;
- .text : { *(.text) }表示从0x00300000开始放置所有目标文件的代码段,
- .data: { *(.data) }表示数据段从代码段的末尾开始,
- 再后是.bss段.
二进制化
链接生成的elf文件不能直接下载到逻辑开发板上执行,通过objcopy工具可生成最终的二进制文件:
arm-linux-objcopy -O binary bootstrap.elf bootstrap.bin
所生成的目标二进制文件bootstrap.bin就可以直接写入Flash中运行了.其中:
-O binary指定生成为二进制格式文件。
Objcopy还可以生成S格式的文件,只需将参数换成-O srec。
如果想将生成的目标代码反汇编,还可以用objdump工具:
arm-linux-objdump -dS bootstrap.elf
输出可执行程序bootstrap.elf的反汇编代码
其中,
-d:反汇编所有包含指令的段
-D:反汇编所有段
-S:源代码和汇编代码穿插显示(使用-g选项编译)
编写好的.lds文件,在用arm-linux-ld链接命令时带-Tfilename来调用执行,如
arm-linux-ld -Tnand.lds x.o y.o -o xy.o
也用-Ttext参数直接指定链接地址,如
arm-linux-ld –Ttext 0x30000000 x.o y.o –o xy.o。
既然程序有了两种地址,就涉及到一些跳转指令的区别。ARM汇编中,常有两种跳转方法:
- b跳转指令
- ldr指令向PC赋值
要特别注意这两条指令的意思:
b step
b跳转指令是相对跳转,依赖当前PC的值,偏移量是通过该指令本身的 bit[23:0]算出来的,这使得使用b指令的程序不依赖于要跳到的代码的位置,只看指令本身。
ldr pc, =step
该指令是一个伪指令编译后会生成以下代码:
ldr pc, 0x30008000
<0x30008000>
step
<0x30008000>
step
从内存中的某个位置(step)读出数据并赋给PC,同样依赖当前PC的值,但是偏移量是step的链接地址(运行时的地址),所以可以用它实现从Flash到RAM的程序跳转。
此外,有必要回味一下adr伪指令,U-boot中那段relocate代码就是通过adr实现当前程序是在RAM中还是flash中:
relocate: /* 把U-Boot重新定位到RAM */
adr r0, _start /* r0是代码的当前位置 */
adr r0, _start /* r0是代码的当前位置 */
/* adr伪指令,汇编器自动通过当前PC的值算出这条指令中“_start"的值,执行到_start时PC的值放到r0中,当此段在flash中执行时r0 = _start = 0;当此段在RAM中执行时_start = _TEXT_BASE(在board/smdk2410/config.mk中指定的值为0x33F80000,即u-boot在把代码拷贝到RAM中去 执行的代码段的开始) */
ldr r1, _TEXT_BASE /* 测试判断是从Flash启动,还是RAM */
/* 此句执行的结果r1始终是0x33FF80000,因为此值是链接指定的 */
cmp r0, r1 /* 比较r0和r1,调试的时候不要执行重定位 */
结合u-boot.lds谈谈链接脚本。
OUTPUT_FORMAT("elf32-littlearm","elf32-littlearm","elf32-littlearm) #指定输出可执行文件是elf格式,32位ARM指令,小端
OUTPUT_ARCH(arm) #指定输出可执行文件的平台为ARM
ENTRY(_start) #指定输出可执行文件的起始代码段为_start.
SECTIONS
{
. = 0x00000000; #定位当前地址为0地址
. = ALIGN(4); #代码以4字节对齐
.text : #指定代码段:必须将start.o文件放在代码段的开始位置,其它文件可任意放
{
cpu/arm920t/start.o (.text) #代码段第一部分,指明start.s是入口程序,被放到代码段开头
*(.text) #其它代码部分.其中的*表示其它任意文件,即所有其它文件的代码段
}
. = ALIGN(4);
.rodata : { *(.rodata) } #指定只读数据段,RO段
. = ALIGN(4);
.data : { *(.data) } #指定读/写数据段,RW段
. = ALIGN(4);
.got : { *(.got) } #指定got段, got段式是uboot自定义的一个段, 非标准段
__u_boot_cmd_start = . #把__u_boot_cmd_start赋值为当前位置, 即起始位置
.u_boot_cmd : { *(.u_boot_cmd) }#指定u_boot_cmd段, uboot把所有的uboot命令放在该段.
__u_boot_cmd_end = . #把__u_boot_cmd_end赋值为当前位置,即结束位置
. = ALIGN(4);
__bss_start = . #把__bss_start赋值为当前位置,即bss段的开始位置
.bss : { *(.bss) } #指定bss段
_end = . #把_end赋值为当前位置,即bss段的结束位置
}
OUTPUT_ARCH(arm) #指定输出可执行文件的平台为ARM
ENTRY(_start) #指定输出可执行文件的起始代码段为_start.
SECTIONS
{
. = 0x00000000; #定位当前地址为0地址
. = ALIGN(4); #代码以4字节对齐
.text : #指定代码段:必须将start.o文件放在代码段的开始位置,其它文件可任意放
{
cpu/arm920t/start.o (.text) #代码段第一部分,指明start.s是入口程序,被放到代码段开头
*(.text) #其它代码部分.其中的*表示其它任意文件,即所有其它文件的代码段
}
. = ALIGN(4);
.rodata : { *(.rodata) } #指定只读数据段,RO段
. = ALIGN(4);
.data : { *(.data) } #指定读/写数据段,RW段
. = ALIGN(4);
.got : { *(.got) } #指定got段, got段式是uboot自定义的一个段, 非标准段
__u_boot_cmd_start = . #把__u_boot_cmd_start赋值为当前位置, 即起始位置
.u_boot_cmd : { *(.u_boot_cmd) }#指定u_boot_cmd段, uboot把所有的uboot命令放在该段.
__u_boot_cmd_end = . #把__u_boot_cmd_end赋值为当前位置,即结束位置
. = ALIGN(4);
__bss_start = . #把__bss_start赋值为当前位置,即bss段的开始位置
.bss : { *(.bss) } #指定bss段
_end = . #把_end赋值为当前位置,即bss段的结束位置
}
通过上面的分析可以看出
- 由于在链接脚本中规定了文件start.o(对应于start.S)作为整个uboot的起始点,因此启动uboot时会执行首先执行start.S
- 一般来说,内存空间可分为代码段、数据段、全局变量段、未初始化变量区、栈区、堆区等.其中,栈区由指针SP决定,堆区实质上是由C代码实现的,其它段则由编译器决定.从上面的分析可以看出,从0x00000000地址开始,编译器首先将代码段放在最开始的位置,然后是数据段,然后是bss段(未初始化变量区).
附另一链接文件
OUTPUT_FORMAT("elf32-littlearm", "elf32-littlearm", "elf32-littlearm")
OUTPUT_ARCH(arm)
ENTRY(_start)
SECTIONS {
. = 0x30000000;
. = ALIGN(4);
.init : AT(0) {start.o nand.o}
. = ALIGN(4);
. = 0x30001000;
.text : AT(4096) { *(.text) }
.rodata ALIGN(4) : AT((LOADADDR(.text)+SIZEOF(.text)+3)&~(0x03)) { *(.rodata*) }
.data ALIGN(4) : AT((LOADADDR(.rodata)+SIZEOF(.rodata)+3)&~(0x03)) { *(.data) }
. = ALIGN(4);
__bss_start = .;
.bss :{ *(.bss) *(COMMON)}
__bss_end = .;
}
OUTPUT_ARCH(arm)
ENTRY(_start)
SECTIONS {
. = 0x30000000;
. = ALIGN(4);
.init : AT(0) {start.o nand.o}
. = ALIGN(4);
. = 0x30001000;
.text : AT(4096) { *(.text) }
.rodata ALIGN(4) : AT((LOADADDR(.text)+SIZEOF(.text)+3)&~(0x03)) { *(.rodata*) }
.data ALIGN(4) : AT((LOADADDR(.rodata)+SIZEOF(.rodata)+3)&~(0x03)) { *(.data) }
. = ALIGN(4);
__bss_start = .;
.bss :{ *(.bss) *(COMMON)}
__bss_end = .;
}