从网上无意间看到这个系列的文章,作者非常有想法,转下来慢慢研究,好好学习。 祝大家学习愉快,做自己的爱好 ^_^ !
上一篇文章提到了我开发了可配置语法分析器之后做了一个FpMacro用来生成C++有规律的代码。这一篇文章就从FpMacro入手,分析可配置语法分析器所需要具备的功能。首先让我们来了解一下什么是FpMacro。
FpMacro主要用来产生用C++宏很难容易产生的代码(譬如BOOST那个宏)。当你需要重复产生一些区别很小但是又不能用模板解决的代码的时候,用宏就不是一个好的选择,因为这种宏对于输入的东西都有很多限制。譬如说因为宏展开的顺序的问题,你把另一个宏当成高阶函数传进去,过不了几轮递归就会被解释成不知道什么东西了。于是我开发了FpMacro来解决这个问题。首先考虑一下FpMacro需要支持的功能:
1、根据参数的不同选择分支
2、循环产生代码
3、能方便地在里面写C++的宏(虽然不解释,但是不能造成语法上的冲突)
4、方便使用C++的各种符号(譬如说括号和逗号这种要命的东西)
其实第四条也就是说,在调用FpMacro宏的时候,逗号和括号跟一般的文本是有不同的解释的,在不调用FpMacro宏的时候,括号和逗号用来产生括号和逗号,不是语法的一部分。这会让我们做语法分析的时候遇到很大的困难。当然如何方便的解决这种事情也就是可配置语法分析器要解决的事情了。
于是我们可以开始设计FpMacro了:
1、单行宏:
2、多行宏:
2 expression
3
4 $$define.
5 $$end
3、宏调用:
4、数组:
从上面的语法我们可以知道$$define是可以嵌套的,也就是说你可以在一个函数里面定义子函数,然后还能将子函数传入另一个宏的参数让它调用(就跟函数指针一样)。于是我们知道,FpMacro宏其实就是一些高阶函数,根据各种参数,字符串也好,函数也好,返回字符串的。
语法的另一个要求也能很明显的看出来,不能跟C++里面的#define和括号逗号什么的混淆,除了$NAME(a,b,c)这些东西以外,括号和逗号都必须是用来产生代码的东西,这也是FpMacro之所以能够真正使用的一个地方。如果所有的逗号都不被解释成普通的文本,都用转义$(,)的话,写出来的代码会很难看的,因为C++本身逗号也很多。
于是我们可以得到FpMacro的文法定义:
2 BRACKET_OPEN = str(L"(");
3 BRACKET_CLOSE = str(L")");
4 ARRAY_OPEN = str(L"$[");
5 ARRAY_CLOSE = str(L"]");
6 NAME = rgx(L"/$[a-zA-Z_]/w*");
7 COMMA = str(L",");
8 COMMENT = rgx(L"(////[^/r/n]*|///*([^*]|/*+[^*//])*/*+//)");
9 STRING = rgx(L"\"([^\\\\\"]|\\\\\\.)*\"");
10 NEW_LINE = str(L"\r\n");
11 ESCAPE = rgx(L"/$/(/./)");
12 SPACE = rgx(L"[ /t]+");
13
14 exp_list = list(opt(exp_nc + *(COMMA >> exp_nc)));
15 name_list = list(opt(NAME + *(*SPACE >> COMMA >> *SPACE >> NAME)));
16 def_list = list(+(*NEW_LINE >> def << *NEW_LINE));
17 ref_head = ((str(L"$$define")>>*SPACE>>NAME) + (*SPACE>>(BRACKET_OPEN >> name_list << BRACKET_CLOSE)))[ToRefDefHead]<<*SPACE;
18
19 text_exp_nc = (PLAIN_TEXT | ARRAY_OPEN | ARRAY_CLOSE | COMMENT | STRING | ESCAPE | SPACE)[ToText];
20 unit_exp_nc = invoke_exp | array_exp | reference_exp | text_exp_nc | str(L"()")[ToText] | (BRACKET_OPEN >> opt(exp + opt(BRACKET_CLOSE)))[ToBracket];
21 concat_exp_nc = list(+unit_exp_nc)[ToConcat];
22 exp_nc = concat_exp_nc;
23
24 array_exp = (ARRAY_OPEN >> exp_list << ARRAY_CLOSE)[ToArray];
25 reference_exp = NAME[ToReference];
26 text_exp = (PLAIN_TEXT | ARRAY_OPEN | ARRAY_CLOSE | COMMA | COMMENT | STRING | ESCAPE | SPACE)[ToText];
27 invoke_exp = (reference_exp + (BRACKET_OPEN >> exp_list << BRACKET_CLOSE))[ToInvoke];
28 unit_exp = invoke_exp | array_exp | reference_exp | text_exp | str(L"()")[ToText] | (BRACKET_OPEN >> opt(exp + opt(BRACKET_CLOSE)))[ToBracket];
29 concat_exp = list(+unit_exp)[ToConcat];
30 exp = concat_exp;
31
32 exp_def = exp[ToExpDef];
33 ref_def = (ref_head + (list(loop(exp_def, 1, 1)) | (str(L"$$begin") >> def_list << str(L"$$end"))))[ToRefDef];
34 def = exp_def | ref_def;
35
36 macro_start = def_list[ToMacro];
上面的代码即是文法也是C++代码。可配置文法分析器被设计成你可以在C++里面写文法,然后就可以直接用文法对容器或者字符串进行分析了。这里稍微解释一下符号的意义:
每一条 文法都是有类型的。组合在一起的文法输入同样的东西,但是返回类型各不相同。这里让a返回int,b返回WString:
连接1:a+b。规定a后面接着b,然后返回ParsingPair<int, WString>
连接2:a>>b。规定a后面接着b,然后返回b(a的返回结果被忽视)
连接3:a<<b。跟上面反过来。
循环:+a,*a,opt(a)。分别代表一次或多次、零次或多次、零次或一次循环。我这里还提供了一个函数loop(Rule, min, max)用来控制循环次数,当max==-1的时候代表没有上限。这里返回ParsingList<int>。
分支:a|b。规定a或者b其中一个匹配都可以,但是要求是a和b返回的类型要一致。
返回值转换:a[f]。f是一个函数,接受a的结果,返回一个新结果。你可以用这种技巧来将记号转换成表达式对象树。
错误恢复:a(f)。f是一个函数,当a发生错误的时候,f可以替换或添加错误信息,还能决定要不要返回一个对象让分析可以继续下去。这里f的结果必须跟a的类型一致。这是错误回复跟返回值转换不同的地方。
还有其他杂项函数用来把处理结果跟VL++3.0的其他基础类库连接起来,譬如rgx用正则表达式产生一个接受字符串,匹配前缀并返回前缀的分析器,等等。
这批文章先介绍到这里。下一篇文章我将给出FpMacro的语法树的代码。可配置语法分析器的使命就是将一个字符串或者容器翻译成语法树,或者直接计算出结果。有了语法树之后,我们就可以得到可配置语法分析器的一些需求,然后再根据这些需求来开发出一个可配置语法分析器,让你可以在C++里面直接写文法得到结果。
可配置语法分析器跟boost::spirit不同的一点就是文法是有类型的,譬如说*a+*b返回结果ParsingPair<ParsingList<int>,ParsingList<WString>>,从而你可以知道a和b一共有多少个。boost::spirit根据了解(我并没有非常详细地阅读它的细节),返回给你的是一个记号的迭代器,而且还很难用很漂亮的代码将结果转换成我们需要的东西(当然还是能转的,就是写出来的代码不好看,特别是他上面那些例子……)。