上面我们看了只有中间两个状态的状态机,现在我们来看一个稍微复杂一点的状态机。
INI文件是Windows下常用的一种配置文件。它由多个分组组成,每个组有多个配置项,每个配置项又由名称和值组成。文件里还可以包含注释,注释通常以‘;’(或‘#’)开始,直到当前行结束。如XP下的win.ini:
1 ; for 16-bit app support 2 [fonts] 3 [extensions] 4 [mci extensions] 5 [files] 6 [MCI Extensions.BAK] 7 aif=MPEGVideo 8 aifc=MPEGVideo 9 aiff=MPEGVideo 10 asf=MPEGVideo 11 asx=MPEGVideo 12 au=MPEGVideo 13 m1v=MPEGVideo 14 m3u=MPEGVideo 15 mp2=MPEGVideo 16 mp2v=MPEGVideo 17 mp3=MPEGVideo 18 [annie] 19 CaptureFile= 20 VideoDevice=0 21 AudioDevice=0 22 FrameRate=333333 23 UseFrameRate=1 24 CaptureAudio=1 25 WantPreview=1 26 MasterStream=-1 27 [SciCalc] 28 layout=0
第一行是注释,后面有fonts、extensions和mci extensions三个空的分组,MCI Extensions.BAK、annie和SciCalc三个分组包含有一个或多个配置项。
对于这样一个文件,我们应该怎样去解析它呢?按照前面的方法,先把数据读入到一个缓冲区中,让一个指针指向缓冲区的头部,然后移动指针,直到指向缓冲区的尾部。在这个过程中,指针可能指向的注释、分组的组名、配置项的名称、配置项的值或者一些如换行符之类的格式信息。
由此,我们可以这样来定义INI的状态机:
状态集合:
1. 分组的组名状态
2. 注释状态
3. 配置项的名称状态
4. 配置项的值状态
5. 空白状态
状态转换函数:
1. 初始状态为“空白”状态。
2. 在“空白”状态下,读入字符‘[’,进入“分组组名”状态。
3.
在“分组组名”状态下,读入字符‘]’,分组组名解析成功,回到“空白”状态。
4. 在“空白”状态下,读入字符‘;’,进入“注释”状态。
5.
在“注释”状态下,读入换行字符,结束“注释”状态,回到“空白”状态。
6. 在“空白”状态下,读入非空白字符,进入“配置项的名称”状态。
7.
在“配置项的名称”状态下,读入字符‘=’, 配置项的名称解析成功,进入“配置项的值”状态。
8.
在“配置项的值”状态下,读入换行字符,配置项的值解析成功,回到“空白”状态。
INI状态机可以用下图来表示:
现在我们来看看程序实现:
1 static void ini_parse (char* buffer, char comment_char, char delim_char) 2 { 3 char* p = buffer; 4 char* group_start = NULL; 5 char* key_start = NULL; 6 char* value_start = NULL; 7 /*定义INI解析器的状态,初始状态为“空白”状态。*/ 8 enum _State 9 { 10 STAT_NONE = 0, 11 STAT_GROUP, 12 STAT_KEY, 13 STAT_VALUE, 14 STAT_COMMENT 15 }state = STAT_NONE; 16 17 for(p = buffer; *p != '/0'; p++) 18 { 19 switch(state) 20 { 21 case STAT_NONE: 22 { 23 if(*p == '[') 24 { 25 /*在“空白”状态下,读入字符‘[’,进入“分组组名”状态。*/ 26 state = STAT_GROUP; 27 group_start = p + 1; 28 } 29 else if(*p == comment_char) 30 { 31 /*在“空白”状态下,读入字符‘;’,进入“注释”状态。*/ 32 state = STAT_COMMENT; 33 } 34 else if(!isspace(*p)) 35 { 36 /*在“空白”状态下,读入非空白字符,进入“配置项的名称”状态。*/ 37 state = STAT_KEY; 38 key_start = p; 39 } 40 break; 41 } 42 case STAT_GROUP: 43 { 44 /*在“分组组名”状态下,读入字符‘]’,分组组名解析成功,回到“空白”状态。*/ 45 if(*p == ']') 46 { 47 *p = '/0'; 48 state = STAT_NONE; 49 strtrim(group_start); 50 printf("[%s]/n", group_start); 51 } 52 break; 53 } 54 case STAT_COMMENT: 55 { 56 /*在“注释”状态下,读入换行字符,结束“注释”状态,回到“空白”状态。*/ 57 if(*p == '/n') 58 { 59 state = STAT_NONE; 60 break; 61 } 62 break; 63 } 64 case STAT_KEY: 65 { 66 /*在“配置项的名称”状态下,读入字符‘=’, 配置项的名称解析成功,进入“配置项的值”状态。*/ 67 if(*p == delim_char || (delim_char == ' ' && *p == '/t')) 68 { 69 *p = '/0'; 70 state = STAT_VALUE; 71 value_start = p + 1; 72 } 73 break; 74 } 75 case STAT_VALUE: 76 { 77 /*在“配置项的值”状态下,读入换行字符,配置项的值解析成功,回到“空白”状态。*/ 78 if(*p == '/n' || *p == '/r') 79 { 80 *p = '/0'; 81 state = STAT_NONE; 82 strtrim(key_start); 83 strtrim(value_start); 84 printf("%s%c%s/n", key_start, delim_char, value_start); 85 } 86 break; 87 } 88 default:break; 89 } 90 } 91 92 if(state == STAT_VALUE) 93 { 94 strtrim(key_start); 95 strtrim(value_start); 96 printf("%s%c%s/n", key_start, delim_char, value_start); 97 } 98 99 return; 100 }
ini文件有几个变种:
1. 支持默认分组,如果只有一个分组,省略分组的组名,linux下不少配置文件采用这种方式。
2.
注释符号,有的用‘;’,有的用‘#’,前者多用于Windows下,后面多用于Linux下。
3.
名称和值之间的分隔,有的用空格,有的用‘=’,有的‘:’。
不管哪种格式,它们的解析方法是一样的,在上面的程序中,我们使用了comment_char和 delim_char两个参数,分别表示注释符号和分隔符号。