C++语言的创建初衷是“a better C”,但是这并不意味着C++中类似C语言的全局变量和函数所采用的编译和连接方式与C语言完全相同。作为一种欲与C兼容的语言,C++保留了一部分过程式语言的特点(被世人称为“不彻底地面向对象”),因而它可以定义不属于任何类的全局变量和函数。但是,C++毕竟是一种面向对象的程序设计语言,为了支持函数的重载,C++对全局函数的处理方式与C有明显的不同。
2.从标准头文件说起
某企业曾经给出如下的一道面试题:
面试题
为什么标准头文件都有类似以下的结构?
#ifndef __INCvxWorksh
#define __INCvxWorksh
#ifdef __cplusplus
extern "C" {
#endif
/*...*/
#ifdef __cplusplus
}
#endif
#endif /* __INCvxWorksh */
分析
显然,头文件中的编译宏“#ifndef __INCvxWorksh、#define __INCvxWorksh、#endif” 的作用是防止该头文件被重复引用。
那么
#ifdef __cplusplus
extern "C" {
#endif
#ifdef __cplusplus
}
#endif
的作用又是什么呢?我们将在下文一一道来。
3.深层揭密extern "C"
extern "C" 包含双重含义,从字面上即可得到:首先,被它修饰的目标是“extern”的;其次,被它修饰的目标是“C”的。让我们来详细解读这两重含义。
被extern "C"限定的函数或变量是extern类型的;
extern是C/C++语言中表明函数和全局变量作用范围(可见性)的关键字,该关键字告诉编译器,其声明的函数和变量可以在本模块或其它模块中使用。记住,下列语句:
extern int a;
仅仅是一个变量的声明,其并不是在定义变量a,并未为a分配内存空间。变量a在所有模块中作为一种全局变量只能被定义一次,否则会出现连接错误。
在C语言中,修饰符extern用在变量或者函数的声明前,用来说明“此变量/函数是在别处定义的,要在此处引用”。
与extern对应的关键字是static,被它修饰的全局变量和函数只能在本模块中使用。因此,一个函数或变量只可能被本模块使用时,其不可能被extern “C”修饰。
被extern "C"修饰的变量和函数是按照C语言方式编译和连接的;
未加extern “C”声明时的编译方式
首先看看C++中对类似C的函数是怎样编译的。
作为一种面向对象的语言,C++支持函数重载,而过程式语言C则不支持。函数被C++编译后在符号库中的名字与C语言的不同。例如,假设某个函数的原型为:
void foo( int x, int y );
该函数被C编译器编译后在符号库中的名字为_foo,而C++编译器则会产生像_foo_int_int之类的名字(不同的编译器可能生成的名字不同,但是都采用了相同的机制,生成的新名字称为“mangled name”)。
_foo_int_int这样的名字包含了函数名、函数参数数量及类型信息,C++就是靠这种机制来实现函数重载的。例如,在C++中,函数void foo( int x, int y )与void foo( int x, float y )编译生成的符号是不相同的,后者为_foo_int_float。
同样地,C++中的变量除支持局部变量外,还支持类成员变量和全局变量。用户所编写程序的类成员变量可能与全局变量同名,我们以"."来区分。而本质上,编译器在进行编译时,与函数的处理相似,也为类中的变量取了一个独一无二的名字,这个名字与用户程序中同名的全局变量名字不同。
未加extern "C"声明时的连接方式
假设在C++中,模块A的头文件如下:
// 模块A头文件 moduleA.h
#ifndef MODULE_A_H
#define MODULE_A_H
int foo( int x, int y );
#endif
在模块B中引用该函数:
// 模块B实现文件 moduleB.cpp
#include "moduleA.h"
foo(2,3);
实际上,在连接阶段,连接器会从模块A生成的目标文件moduleA.obj中寻找_foo_int_int这样的符号!
加extern "C"声明后的编译和连接方式
加extern "C"声明后,模块A的头文件变为:
// 模块A头文件 moduleA.h
#ifndef MODULE_A_H
#define MODULE_A_H
extern "C" int foo( int x, int y );
#endif
在模块B的实现文件中仍然调用foo( 2,3 ),其结果是:
(1)模块A编译生成foo的目标代码时,没有对其名字进行特殊处理,采用了C语言的方式;
(2)连接器在为模块B的目标代码寻找foo(2,3)调用时,寻找的是未经修改的符号名_foo。
如果在模块A中函数声明了foo为extern "C"类型,而模块B中包含的是extern int foo( int x, int y ) ,则模块B找不到模块A中的函数;反之亦然。
所以,可以用一句话概括extern “C”这个声明的真实目的(任何语言中的任何语法特性的诞生都不是随意而为的,来源于真实世界的需求驱动。我们在思考问题时,不能只停留在这个语言是怎么做的,还要问一问它为什么要这么做,动机是什么,这样我们可以更深入地理解许多问题):
实现C++与C及其它语言的混合编程。
明白了C++中extern "C"的设立动机,我们下面来具体分析extern "C"通常的使用技巧。
4.extern "C"的惯用法
(1)在C++中引用C语言中的函数和变量,在包含C语言头文件(假设为cExample.h)时,需进行下列处理:
extern "C"
{
#include "cExample.h"
}
而在C语言的头文件中,对其外部函数只能指定为extern类型,C语言中不支持extern "C"声明,在.c文件中包含了extern "C"时会出现编译语法错误。
笔者编写的C++引用C函数例子工程中包含的三个文件的源代码如下:
/* c语言头文件:cExample.h */
#ifndef C_EXAMPLE_H
#define C_EXAMPLE_H
extern int add(int x,int y);
#endif
/* c语言实现文件:cExample.c */
#include "cExample.h"
int add( int x, int y )
{
return x + y;
}
// c++实现文件,调用add:cppFile.cpp
extern "C"
{
#include "cExample.h"
}
int main(int argc, char* argv[])
{
add(2,3);
return 0;
}
如果C++调用一个C语言编写的.DLL时,当包括.DLL的头文件或声明接口函数时,应加extern "C" { }。
(2)在C中引用C++语言中的函数和变量时,C++的头文件需添加extern "C",但是在C语言中不能直接引用声明了extern "C"的该头文件,应该仅将C文件中将C++中定义的extern "C"函数声明为extern类型。
笔者编写的C引用C++函数例子工程中包含的三个文件的源代码如下:
//C++头文件 cppExample.h
#ifndef CPP_EXAMPLE_H
#define CPP_EXAMPLE_H
extern "C" int add( int x, int y );
#endif
//C++实现文件 cppExample.cpp
#include "cppExample.h"
int add( int x, int y )
{
return x + y;
}
/* C实现文件 cFile.c
/* 这样会编译出错:#include "cExample.h" */
extern int add( int x, int y );
int main( int argc, char* argv[] )
{
add( 2, 3 );
return 0;
}
如果深入理解了第3节中所阐述的extern "C"在编译和连接阶段发挥的作用,就能真正理解本节所阐述的从C++引用C函数和C引用C++函数的惯用法。对第4节给出的示例代码,需要特别留意各个细节。
========================================================
extern "C"---------跨平台
在上世纪70年代以前,编译器编译源代码产生目标文件时,符号名与相应的变量及函数的名称是一样的。比如一个代码里面包涵了一个foo函数,那么编译成目标文件以后,其中对应的符号名也是foo。当后来UNIX平台和C语言发明时,已经存在了相当多这样的库和目标文件。这就产生了一个问题,如果一个C程序要使用这些库的话,它就不可以使用这些库中定义的函数和变量做为符号名,否则就会和现有的目标文件冲突。比如有个用汇编编写的库中定义了一个函数或变量叫做main,那其他所有调用这个库的代码里就不能再定义main了。
为了防止类似的符号名冲突,UNIX下的C语言就规定,C语言源代码文件中所有的全局变量和函数经过编译后,要在相应的符号名前加上下划线"_",而Fortran则要求在所有符号名前加上"_",后面也加上"_"。比如foo函数,C语言编译后的符号名是"_foo",而Fortran的则是"_for_"。这种简单而原始的方法的确能暂时减少多种语言的目标文件之间符号冲突的概率,但并没有从根本上解决此问题。比如同一种语言编写的目标文件还是有可能会产生符号冲突,当程序很大尤其是由不同部门或个人开发时,也有可能导致冲突。当然,随着时间的推移,很多操作系统和编译器被完全重写了好几遍。UNIX也分化成了很多种,整个环境也发生了很大的变化,上面提到的C语言与Fortran、汇编库的符号冲突问题也已经不是那么明显了。现在的Linux GCC编译器,默认情况下已经去掉了在C语言符号名前加"_"的方式,在Windows平台下的编译器还保持着这样的传统。
C++这样的后来设计的语言开始考虑到这个问题,增加了名称空间(Namespace)的方法来解决多模块的符号冲突问题,但是强大而复杂的C++拥有的类、继承、虚机制、重载等特性无疑又使符号管理更为复杂。举个简单的例子,两个相同名称的函数func(int)和func(double),函数名相同但参数列表不通,这是C++里函数重载的最简单的一种情况,那么编译器和链接器在链接过程中如何区分这两个函数呢?下面我们引入一个术语叫函数签名,它包含了一个函数的信息:函数名、参数类型、所在的类和名称空间及其他信息。函数签名用于识别不同的函数,而函数的名称只是函数签名的一部分。由于上例中两个同名函数的参数类型不同,我们可以认为它们的函数签名不同而认为是不同的函数。在编译器及链接器处理符号时,它们则使用某种名称修饰的方法,使得每个函数签名对应一个修饰后名称。编译器在将C++源代码编译成目标文件时,会将函数和变量的名称进行修饰,形成符号名,目标文件中所使用的符号名就是修饰后名称,所以对于不同函数签名的函数,即使函数名相同,编译器和链接器都认为它们是不同的函数。
如下面6个函数的函数签名在GCC编译器下获得的修饰后名称如下:
签名和名称修饰机制不光被使用在函数上,C++中的全局变量和静态变量也有同样的机制。不同的编译器厂商的名称修饰方法可能不同,这里就不详细描述其细节及异同了。
相信说到这里,大家都明白为什么在跨平台的C++代码中经常可以见到extern "C"的写法了吧?显然C++编译器会将在extern "C"大括号内部的代码当做C语言代码处理,C++的名称修饰机制不会对此起作用。上文说到对于一个函数foo,Linux版本的GCC不会将foo函数修饰成_foo,而Visual C++却会将C语言代码修饰成_foo。而在很多时候,我们会碰到有些头文件声明了一些C语言的函数和全局变量,但这个头文件可能会被C或C++代码包含。比如C语言库函数string.h中的memset函数,原型如下:
void*memset(void *, int , size_t);
如果不加任何处理,当C语言程序包含string.h并用到memset函数,编译器能正常处理memset符号;但在C++语言中,编译器会将memset函数签名修饰成_Z6memsetPvii,这样链接器就无法和C语言库中的memset符号进行链接了。所以对于C++来说,必须使用extern "C"来声明此函数,针对C和C++代码的不同,编译器使用宏"__cplusplus"来区分。
========================================================
extern、static关键字浅析
static是C++中常用的修饰符,它被用来控制变量的存贮方式和可见性。extern, "C"是使C++能够调用C写作的库文件的一个手段,如果要对编译器提示使用C的方式来处理函数的话,那么就要使用extern "C"来说明。
一.C语言中的static关键字
在C语言中,static可以用来修饰局部变量,全局变量以及函数。在不同的情况下static的作用不尽相同。
(1)修饰局部变量
一般情况下,对于局部变量是存放在栈区的,并且局部变量的生命周期在该语句块执行结束时便结束了。但是如果用static进行修饰的话,该变量便存放在静态数据区,其生命周期一直持续到整个程序执行结束。但是在这里要注意的是,虽然用static对局部变量进行修饰过后,其生命周期以及存储空间发生了变化,但是其作用域并没有改变,其仍然是一个局部变量,作用域仅限于该语句块。
在用static修饰局部变量后,该变量只在初次运行时进行初始化工作,且只进行一次。
如:
- #include<stdio.h>
- void fun()
- {
- static int a=1; a++;
- printf("%d ",a);
- }
- int main(void)
- {
- fun();
- fun();
- return 0;
- }
程序执行结果为: 2 3
说明在第二次调用fun()函数时,a的值为2,并且没有进行初始化赋值,直接进行自增运算,所以得到的结果为3.
对于静态局部变量如果没有进行初始化的话,对于整形变量系统会自动对其赋值为0,对于字符数组,会自动赋值为' '.
(2)修饰全局变量
对于一个全局变量,它既可以在本源文件中被访问到,也可以在同一个工程的其它源文件中被访问(只需用extern进行声明即可)。
如:
- //有file1.c
- int a=1;
- file2.c
- #include<stdio.h>
- extern int a;
- int main(void)
- {
- printf("%d",a);
- return 0;
- }
则执行结果为 1
但是如果在file1.c中把int a=1改为static int a=1;
那么在file2.c是无法访问到变量a的。原因在于用static对全局变量进行修饰改变了其作用域的范围,由原来的整个工程可见变为本源文件可见。
(3)修饰函数
用static修饰函数的话,情况与修饰全局变量大同小异,就是改变了函数的作用域。
二.C++中的static
在C++中static还具有其它功能,如果在C++中对类中的某个函数用static进行修饰,则表示该函数属于一个类而不是属于此类的任何特定对象;如果对类中的某个变量进行static修饰,表示该变量为类以及其所有的对象所有。它们在存储空间中都只存在一个副本。可以通过类和对象去调用。
三.extern关键字
在C语言中,修饰符extern用在变量或者函数的声明前,用来说明“此变量/函数是在别处定义的,要在此处引用”。
在上面的例子中可以看出,在file2中如果想调用file1中的变量a,只须用extern进行声明即可调用a,这就是extern的作用。在这里要注意extern声明的位置对其作用域也有关系,如果是在main函数中进行声明的,则只能在main函数中调用,在其它函数中不能调用。其实要调用其它文件中的函数和变量,只需把该文件用#include包含进来即可,为啥要用extern?因为用extern会加速程序的编译过程,这样能节省时间。
在C++中extern还有另外一种作用,用于指示C或者C++函数的调用规范。比如在C++中调用C库函数,就需要在C++程序中用extern “C”声明要引用的函数。这是给链接器用的,告诉链接器在链接的时候用C函数规范来链接。主要原因是C++和C程序编译完成后在目标代码中命名规则不同,用此来解决名字匹配的问题。