CC(Compiler Compiler)
CC的意思就是“编译器的编译器”。
你可以定义一种上下文无关文法(CFG),然后针对这个特定的CFG你可以写出一个C程序来解释这种CFG,那么你编的这个C程序就叫做“编译器”。只不过你的编译器只能编译特定的CFG。而实际上,G++只能编译C++、JAVAC只能编译Java,这些都是编译器。
而对于任意给定的CFG,我可以写出一段C程序(这就是Compiler's Compiler)来printf出一段C程序(Compiler),printf出来的这段C程序就是给定CFG的编译器。那么,我写的那段C程序就叫做CC(生成编译器的编译器)。
CC实际上是一种问题,可以定义CFG的CC、也可以定义RG(正则语法)的CC。
正则语法的CC显然就是我们常用的工具--------正则表达式。
上下文无关文法的CC有前人的工具:YACC(C++)、JavaCC
一提到CC,必然考虑两点:
- 源语言,比如源语言可以是正则语言、上下文无关语言
- 目标语言,比如Java、C++
CC还有另外一种说法:Parser Generator(解释器的生成器)
怎么操作的?
写一个文件,这个文件内容由“文法”+“处理代码”两种代码混合组成。
一言以蔽之(in a nutshell),这些编译工具让人们免除解析文法的过程,而让人专注于文法解析完成之后的逻辑处理。
YACC(Yet Another Compiler Compiler)
YACC是一个经典的生成语法分析器的工具。yacc生成的编译器主要是用C语言写成的语法解析器(Parser),需要与词法解析器Lex一起使用,再把两部份产生出来的C程序一并编译。
yacc的输入是巴科斯范式(BNF)表达的语法规则以及语法规约的处理代码,Yacc输出的是基于表驱动的编译器,包含输入的语法规约的处理代码部分。
yacc是开发编译器的一个有用的工具,采用LALR(1)语法分析方法。
Yacc最初由AT&T的Steven C. Johnson为Unix操作系统开发,后来一些兼容的程序如Berkeley Yacc,GNU bison,MKS yacc和Abraxas yacc陆续出现。它们都在原先基础上做了少许改进或者增加,但是基本概念是相同的。
由于所产生的解析器需要词法分析器配合,因此Yacc经常和词法分析器的产生器——一般就是Lex——联合使用。IEEE POSIX P1003.2 标准定义了Lex和Yacc的功能和需求。
bison和flex
bison是yacc的进化版,flex是lex的进化版
JavaCC
JavaCC(Java Compiler Compiler)是一个用JAVA开发的受欢迎的语法分析生成器。这个分析生成器工具可以读取上下文无关且有着特殊意义的语法并把它转换成可以识别且匹配该语法的JAVA程序。JavaCC可以在Java虚拟机(JVM) V1.2或更高的版本上使用,它是100%的纯Java代码,可以在多种平台上运行,与Sun当时推出Java的口号"Write Once Run Anywhere"相一致。JavaCC还提供JJTree工具来帮助我们建立语法树,JJDoc工具为我们的源文件生成BNF范式(巴科斯-诺尔范式)文档(Html)
与YACC和Bison最大的不同在于,JavaCC基于自上而下算法对CFG进行解析。
JavaCC是如此的有用,以至于很多有名的库底层都用它来实现语法解析器。这些库包括:
- Apache Derby
- BeanShell
- FreeMarker
- PMD
- Vaadin
- Apache Lucene
- JavaParser
参考资料
https://en.wikipedia.org/wiki/JavaCC
https://en.wikipedia.org/wiki/Bison