作者:冯老师,华清远见嵌入式学院讲师。
程序由指令和数据组成,C语言程序亦是如此。开发者在编写程序的时候往往需要根据不同数据的特点以及程序需求来选择不同的数据存储方式,那么在C语言中数据的存储分为哪些方式呢?
C程序大致来讲可以分为四个数据区:常量区,静态去,堆区,栈区。
其中常量区存储了未被作为初始化使用的字符串常量和被const修饰的全局变量,其特点是只可被访问不可被写入,生命周期同程序的运行过程。
静态区存储了全部的全局变量,和所有被static修饰的变量(包括全局和局部),其特点是生命周期很长(为一次程序的运行过程)并且只被初始化一次(在编译之后就已完成)。
栈区存储了所有自动存储(不加任何存储类型关键字修饰或被auto修饰)的局部变量,其特点是生命周期很短,仅仅是该变量所在函数的一次调用过程。运行时有操作系统分配并在函数结束后回收。
堆区是由操作系统负责维护的大片内存池,使用时需手动申请(调用malloc家族函数),但使用完毕后需手动释放,否则会造成严重的内存泄漏,直到该进程退出后才会被操作系统回收。
下面详细介绍每种存储类型的特点。
一.常量区:
故名思意,常量区里存放的是一些不可改变的量,比如字符串常量。在实际的ELF(Executable and Linkable Format,可执行连接格式,是UNIX系统实验室(USL)作为应用程序二进制接口(Application Binary Interface,ABI)而开发和发布的。Linux 作为类unix系统其程序仍然沿用了该格式。)的程序数据是分段存储的,对应的常量区就是“.rodata(只读数据)段“。
常量区的数据被标记为只读,也就是程序只有访问权而没有写入权,因此如果开发者需要使用某些不希望被改变的数据时可以将其放入常量区。
在C语言中常量有很多种,比如常见的:
字符常量:‘a’, ’A’, ’*’。
字符串常量:”helloworld”,”ilovechina”,”12345”。
整常量: 25,10,012,0x0a,0b00001010。
浮点常量: 3.14,123.456, 3.0E-23;
但是并不是所有的常量都会被编译器放在常量区的,如图1-1中代码所示:
图1-1 定义一个变量并被常量初始化
图中程序定义了一个整型局部变量i,并且被初始化为10,其中i是变量,10是常量,但是编译器并不将10放入常量区,而是在指令中直接通过立即数赋值(图1-2)。
图1-2 由图1-1程序编译生成的汇编代码
这是因为编译器认为普通的整型、浮点型或字符型常量在使用的时候是可以通过立即数来实现的,没有必要额外存储到数据区,如此节省了存储空间和运行时的访问时间。那么什么样的数据才将放入常量区呢?
1.字符串常量
如图1-1所示,在C程序中定义了一个局部的字符指针变量p指向一个字符串常量,其中p由于是局部变量被放在栈区,而字符串常量“helloworld”在汇编中被放入.rodata段(图1-2),在编译后生成的ELF格式文件中也将被放入.rodata段(图1-3)
图1-3 C语言的示例程序定义指针变量指向字符串常量。
图1-4 由图1-3中代码生成的汇编程序。
图1-5 由图1-3中程序编译生成的可执行程序分析。
但是,当一个字符常量串被用来为数组初始化的时候,那么该字符串常量将不会放入常量区,而是放入对应的数组中,如图1-6所示:
图1-6 定义一个字符数组并用字符串常量初始化
编译器会将该字符串按照四字节为一组转换成对应的32位整数来为该数组进行初始化,如图1-7所示,其中第13行的10进制整数1819043176转换成16进制为0x6c6c6568,正好是字符‘l’,’l’,’e’,’h’:
图1-7 图1-6中C代码生成的汇编程序
因此在编译生成的ELF格式文件中的.rodata段也将不会存储该字符串常量:
图1-8 图1-6程序编译后生成的可执行程序片段。
2.被const修饰的全局变量
a)
除了字符串之外,其他常量也可以放在常量区,但是前提是该数据必须被存放在全局变量的空间里,并且被const关键字修饰。如图1-9代 码所示:
图1-9 第4行定义了一个被const修饰的全局变量
编译生成的汇编程序比较:
其中value0由于被const修饰所以放在了.rodata段也就是所谓的常量区,而value1是一个普通的全局变量所以放在了.data段也就是所谓的静态数据区。分析编译生成的ELF格式可执行程序如下:
图1-11 value0的存放位置
其中value0的数据被放在常量区(.rodata段)十六进制显示的0a对应了它的十进制初始值10。
图1-12 value1的存放位置
Value1的数据被放在静态区(.data段)十六进制显示的14对应了它的十进制初始值20。
b)
但是并不是所有被const修饰过的变量都放在常量区,事实上只有全局变量才是如此,普通的局部变量被const修饰后仅仅意味着在表达式上不能显式地改变该变量值,否则编译器会报语法错误,但该变量仍存放在栈区。而由于其存储区域没有发生本质的改变,因此仍然可以通过其他方式改变其值,比如指针。如图1-13所示:
图1-13 定义两个局部变量,其中一个被const修饰
保存,编译,结果如下:
图1-14 编译器发生编译错误
由于 value1被const修饰,所以程序第9行的赋值语句将发生错误。
接着修改程序,通过指针去修改value1的值:
图1-15 定义指针p指向value1并通过指针赋值。
编译,运行:
图1-16 编译运行结果
由于定义的指针变量p和表达式&value1的类型不匹配(p是int *,而&value1的类型是const int *)所以在第7行赋值的时候编译器会产生一个类型不匹配的警告,我们忽略该警告继续运行,结果改变了value1的值。
3.由常量区引发的段错误
由于常量区的特性是只读,因此当程序试图去向指向常量区的地址写入数据的时候,操作系统处于安全考虑会发出一个段错误的信号并且杀死该进程,以达到保护操作系统的目的。
图1-17 示例代码,通过指针去向常量区写数据。
第10行和11行的均可产生同样的段错误,如图1-18所示
图1-18 非法写入引发的段错误