纸上得来终觉浅,绝知此事要躬行。
——陆游
编译原理与技术的一整套理论在整个计算机科学领域占有相当重要的地位,学习它对程序设计人员有很大的帮助。我们考究历史会发现那些人人称颂的程序设计大师都是编译领域的高手,像写出BASIC语言的比尔·盖茨,Sun公司的Java之父等,在编译领域都有很深的造诣。曾经在世界首富宝座上稳坐多年的比尔·盖茨也是从给微机编写BASIC语言编译器起家的,也正是这个BASIC编译器为比尔·盖茨和保罗·艾伦的微软帝国奠定了基础。这个编写BASIC语言编译器的经历,开启了比尔·盖茨的辉煌职业生涯。
编译器是一种相当复杂的程序,编写甚至读懂这样的一个程序都非易事,大多数的计算机科学家和专业人员也从来没有编写过一个完整的编译器。但是,几乎所有形式的计算都要用到编译器,而且任何一个与计算机打交道的专业人员都应掌握编译器的基本结构和操作。除此之外,计算机应用程序中经常遇到的一个任务就是命令解释程序和界面程序的开发,这比编译器要小,但使用的却是相同的技术。因此,掌握这一技术具有非常大的实际意义。
李国杰院士说: “随着微处理器技术的飞速发展,处理器性能在很大程度上取决于编译器的质量,编译技术成为计算机的核心技术,地位变得越来越重要。我国要发展自己的微处理器事业,必然要有自己的编译技术作为后盾。”
回过头来说一说是什么样的原因使我萌生了写这样一本书的想法。作者学习其他计算机课程感觉没有特别难懂的,唯独看编译原理的教材,看完了云里雾里的,感觉一知半解,我感觉可能是学的教材过于理论化,于是到书店把所有跟编译原理有关的书籍统统买回家,当然这也包括大家公认的编译原理三大经典书籍(龙书、虎书、鲸书)在内,每一本我都从头到尾翻一遍,好像什么都懂了,又感觉要真的自己动手写个编译器仍然是只有大师才能完成,对自己还是可望而不可即的事情。并且作者也了解到许多关于编译原理实践的悲观论调: “现有的编译器都是用Lex和Yacc构造的,从头开始手工编写一个完整的编译器几乎是不可能的。”可作者偏偏是那种“明知山有虎,偏向虎山行”的人,要知道早期的编译器可都是纯手工构造的,苦辣酸甜的征程就此开始,可是写个什么语言的编译器?这个编译器怎么定位?这一切都很茫然。
我开始研究编译原理书上的样例,希望能从中找到灵感,给上述问题找到答案。世界著名计算机科学家N.Worth编写的PL/0语言的编译程序是作者最先研究的编译器,它功能简单、结构清晰、可读性强,被认为是一个非常合适的小型编译程序的学习模型,可这个编译程序不支持数组、结构体、字符串,并且是以假想的栈式机器为例来编写的,而不是直接生成在某种CPU,某种操作系统环境下直接可以运行的目标语言程序。“PL/0语言的编译程序”作为编译器的学习模型,也只能算“矬子里面拔将军”,因为没有更好的,也只好将就着用了。至此,编译器定位问题算有了些眉目,作者希望构造一个更适合学习的编译器。可是,另一个问题接踵而至,为什么那么多开源编译器不能直接用作编译器学习模型呢?我开始研究各个开源编译器的源代码,其中包括GCC的源代码,由于GCC支持多个前端语言和各种后端机器平台、AST(Abstract Syntax Tree)和RTL(Register Transfer Language)又成了绕不过去的坎,还没学会怎么编写针对一种源语言、一种目标机器的编译器,就要去学习支持多种源语言多个机器平台的编译器,就好比一个婴儿还没学会走路就要学跑,这注定是要跌跟头的。
自序自己动手写编译器、链接器一面是过于简化的编译器学习模型,另一面是过于复杂的开源编译器,作为学习模型都不太合适。到这里,编译器定位问题算是彻底想清楚了,作者要构造一个教大家如何自己动手写编译器的学习模型。这个模型包括两大部分,第一部分是语言定义,第二部分是这个语言编译器的实现,这个编译器只支持一种源语言,目标语言也只支持一种。这个语言应该具备目前流行的高级语言的最主要特征。这个编译器要结构清晰,代码量要尽可能少,要能体现编写一个实用的编译器的完整过程与技术。这个编译器可以生成在操作系统中直接运行的exe文件,只要双击或在命令行执行就能看到结果的那种。
接下来作者开始思考另一个问题,编写个什么语言的编译器?作者研究了目前最流行的几种编程语言C、C++、C#、Objective�C、Java,其中C语言是最简单的了,只有32个关键字,但是作者研究发现,C语言还是有许多冗余的成分,作为学习模型还可以更简单一些。作者最终以C语言为蓝本,进行适当简化定义了一门新的语言,仅有15个关键字,称为SC语言。目标语言选择大家熟悉的Intel x86机器语言,编译器命名为SCC编译器。
在本书中,读者将看到从SC语言定义,到SCC编译器开发的完整过程。读完本书你将知道一门全新的语言如何定义,一个真实的编译器如何编写,这些对你来说将不再神秘,编译原理讲的理论与本书中讲述的SC语言定义及SCC编译器开发过程,是理论联系实际在编译领域的最好阐释。
如本书作为编译原理实践教材,作者建议安排10学时讲授。
本书投稿后,有幸请CSDN暨《程序员》杂志总编、刘江老师阅读了本书的初稿,并为本书作序,在此向刘老师表示最衷心的感谢。
本书临近出版之际,承蒙清华大学王生原老师阅读了本书终稿,并对书稿做了中肯评价: “本书特色鲜明,内容有深度,文笔也很不错,很值得出版。本书最大的特色是所选的目标平台,即x86处理器以及微软系统的COFF目标文件格式,这在教材中很少见到,可为国内的编译教学实践提供别具一格的素材。”同时,王老师还对本书提出了宝贵建议。在这里,向王老师表示由衷的敬意和最诚挚的感谢。
我还要感谢我的家人,他们的支持与鼓励是本书得以完成的保障。
要列出所有对本书出版有所帮助的人名是不可能的,因为有些困难是通过互联网解决的,我甚至不知道他们的名字。在此,谨向他们一并表示感谢!
最后,回想本书6年的写作历程,愿以蒲松龄的一副对联与读者共勉:
有志者,事竟成,破釜沉舟,百二秦关终属楚;
苦心人,天不负,卧薪尝胆,三千越甲可吞吴。
王博俊
2015年1月