Python 虚拟机实现(一)
python并不将py文件编译为机器码来运行,而是由python虚拟机一条条地将py語句解释运行,这也是为什么被称为解释语言的原因之一。但python虚拟机并不直接执行py語句,它执行编译py語句后生成的字节码。本篇简单地讲下编译、运行的过程,涉及到的内容有如何编译、控制流、函数及类的实现等。
0. python的编译
python将py文件编译成为PyCodeObject,再将这个对象写入某文件就成为了pyc文件,文件中包含python的magic number(来说明编译时使用的python版本号)、源文件的mtime(使pyc和py文件保持同步)、编译出的code对象。将对象写入到一个文件似乎听起来不太可能,不过其实很简单,python只写入特定类型的对象,比如要写入一个code对象,python会按一定的顺序将这个对象中的属性一一写入,由于对象是固定的,因而只要记下写入时的顺序就可以从文件中恢复出对象。注意我们这里谈论的并不是python中的序列化。python在写入实际的对象时会写入标识符,即可以标明对象的边界,又可以保持内容信息以在内存中恢复出对象。
python将对象写入文件最后会将调用到两个函数,一个用来写个int,一个用来写入string。对于string来说,为了达到和intern机制一样的目的不重复写string,在写入的时候python还会维持一个dict来保存已经写入的被intern处理后的string,因此当一个string被intern处理过并且出现在之前所说的dict中时,python仅仅会写入该string的索引值,即它是第几个string。当读取文件时,python则会根据每个string的索引值重建一个list,碰到重复的intern的string时就可以根据索引值读出该string的值了。
1. python虚拟机基础
python虚拟机的执行方式就是模仿普通x86可执行文件运行方式,也有栈、帧等概念。除止之外,python还有一个执行环境的问题,考虑print a句话,a肯定指向了一个对象,但是是什么对象呢,这个就由执行环境来确定了,語句可以通过执行环境读写变量的值,在源代码中对这个执行环境的模拟是对它PyFrameObject来完成的,每一个code block都对应一个执行环境,就是一个PyFrameObject,可以认为是一帧。这个struct比较复杂,看下代码:
typedef struct _frame {
PyObject_VAR_HEAD
struct _frame *f_back; /* previous frame, or NULL */
PyCodeObject *f_code; /* code segment */
PyObject *f_builtins; /* builtin symbol table (PyDictObject) */
PyObject *f_globals; /* global symbol table (PyDictObject) */
PyObject *f_locals; /* local symbol table (any mapping) */
PyObject **f_valuestack; /* points after the last local */
/* Next free slot in f_valuestack. Frame creation sets to f_valuestack.
Frame evaluation usually NULLs it, but a frame that yields sets it
to the current stack top. */
PyObject **f_stacktop;
PyObject *f_trace; /* Trace function */
/* If an exception is raised in this frame, the next three are used to
* record the exception info (if any) originally in the thread state. See
* comments before set_exc_info() -- it's not obvious.
* Invariant: if _type is NULL, then so are _value and _traceback.
* Desired invariant: all three are NULL, or all three are non-NULL. That
* one isn't currently true, but "should be".
*/
PyObject *f_exc_type, *f_exc_value, *f_exc_traceback;
PyThreadState *f_tstate;
PyTryBlock f_blockstack[CO_MAXBLOCKS]; /* for try and loop blocks */
PyObject *f_localsplus[1]; /* locals+stack, dynamically sized */
} PyFrameObject;
许多个PyFrameObject通过f_back连成一串链表,表示了帧与帧之间的先后、调用顺序。python中帧在运行时需要额外的内存,比如a = b + c这段代码,那么需要先请读入b、c,再算a,除此之外还有局部变量等需要保存在栈中,因此最后有一个f_localsplus指向这块多出来的内存,大小则在编译时计算出来保存在f_stacksize中,这块内存具体用来依次保存locals(局部变量)、cellvars、freevars(后两个和闭包的实现有关)、动态栈(f_valuestack指向栈底、起始位置,f_stacktop则维持栈顶)。
当Python虚拟机开始执行时,它会先进行一些初始化操作,最后进入PyEval_EvalFramEx函数,它的作用是不断读取编译好的字节码,并一条一条执行,类似CPU执行指令的过程。函数内部主要是一个switch结构,根据字节码的不同执行不同的代码。
2. Python运行环境及执行过程
先从整体上看看Python的运行环境。我们知道在操作系统中执行程序离不开两个概念:进程和线程,在Python中也是这样,Python模拟了这两个概念。模拟进程或线程的分别是PyInterpreterState和PyThreadState。可以想象,每个PyThredState都对应着一个帧栈,Python虚拟机在多个线程上切换。
当Python虚拟机开始执行时,它会先进行一些初始化操作,最后进入PyEval_EvalFramEx函数,它的作用是不断读取编译好的字节码,并一条一条执行,类似CPU执行指令的过程。函数内部主要是一个switch结构,根据字节码的不同执行不同的代码。用一张图表示:
3. Python的名字空间
名字空间在Python中是一个非常重要的概念,读写变量值其实就是到某个名字空间中读写与该变量名相对应的对象。如果我们把某个符号和与之关联的对象之间的关系(就是(name, value)这样的关联关系)称为約束的话,那可以认为名字空间的内容就是由一组组約束构成,而增加約束的語句可以被称为赋值語句,函数定义、类定义等都可以被称为是赋值語句。当一个module被加载后,Python会执行相应的代码在这个module的名字空间中建议相应的約束,然后就可以用module.attr这样的語句来访问module的属性。
对于每个module来说,它都有一个顶层的名字空间,可以认为是global名字空间,同时也没有哪个名字空间能够跨module存在。具体到module的某行代码,对它来说还存在local名字空间(比较在函数体或类定义中)、enclosing名字空间(用来实现闭包,其实它不真的存在,但假定有这样一个更好理解)。而Python内置了builtin名字空间。如果要查找某个符号的话,Python会依次查找LEGB。要注意的是Python具有静态作用域,它的意思就是说名字空间这个东西是在你写好py代码后就确定的,而不是由执行的时候确定的。这一部分对于理解Python非常重要,由于篇幅所限之前在是不能详述,建议查看《Python源码剖析》第8.2节。