zoukankan      html  css  js  c++  java
  • Scala词法文法解析器 (二)分析C++类的声明

    最近一直在学习Scala语言,偶然发现其Parser模块功能强大,乃为BNF而设计。啥是BNF,读大学的时候在课本上见过,那时候只觉得这个东西太深奥。没想到所有的计算机语言都是基于BNF而定义的一套规范。词法,语法,词法,语法。。。下面看看解析C++类声明的一个简单例子吧。
    
    
    
    
    class CPlusPlusParser extends StandardTokenParsers{
      //分隔符,用于repsep,和其它显示的地方
      lexical.delimiters += (":","::","<",">","(",")","&","{","}",";",",","~")
      //关键字集合,所有在解析方法中,以字符串形式出现的单词,都必须加入保留字集合,保留字大部分属于关键字
      lexical.reserved   += ("class","public","private","protected","operator","const","mutable","static")
    
      // 注意: 词法分析过程中,会自动删除空白,注释等不必要的内容。
    
      /**
      * 解析类,包含7个部分,解析的时候是按照顺序严格的匹配。
      *1. class 关键字
      *2. ident 标识符 被解析为类的名称
      *3. opt(parserBaseClasses) 可选的基类集合
      *4. {  类定义开始
      *5.opt(parserClassBody) 可选的类内容,如果没有,就是一个空类了。
      *6. } 和 ; 类定于的结束标记.
      * */
      def parserClass : Parser[Any] = {
        "class"~ident~opt(parserBaseClasses)~"{"~opt(parserClassBody)~"}"~";"
      }
    
      /**
       * 解析基类集合
       * 1. :  分隔符,用于分割类名称和基类集合,如果没有改分隔符则表明该类没有基类。
       * 2. repsep(parserOneBaseClass,",") 解析一个或者多个基类,C++支持多继承,每个继承以逗号(,)分割
       */
      def parserBaseClasses : Parser[Any] ={
        ":"~repsep(parserOneBaseClass,",")
      }
    
      /**
       * 解析单一继承
       *1.opt("public"|"private"|"protected") 没有包含范围修饰符时,C++默认为private继承
       *2.parserType 基类名称
       */
      def parserOneBaseClass : Parser[Any] ={
        opt("public"|"private"|"protected")~parserType
      }
    
      /**
       * 解析类型
       * 1.rep(parserTypeNamespace) 可选的名称前缀,例如std::string,std::tr1::shared_ptr,包含了名称前缀
       * 2.ident 类型名称
       * 4.opt("<"~repsep(parserType,",")~">") 模板类型,及其嵌套解析,在此属于递归解析
       *
       * 次类型没有考虑解析“unsigned” 数据类型
       */
      def parserType : Parser[Any] ={
        rep(parserTypeNamespace)~ident~opt("<"~repsep(parserType,",")~">")
      }
      /*
      * 解析单一名称空间*/
      def parserTypeNamespace : Parser[Any] ={
        ident~"::"
      }
      /*
      * 解析类的内容,类的成员,如果没有public,private,protected等修饰符,则为默认private
      * 1.rep(parserFun|parserField) 解析可能包含的默认的private范围的方法和字段
      * 2.rep(parserSection) 后续可能包含其他public,private,protected修饰的字段。
      *
      * 例如一个类可以包含public:private: 等多个不同的范围修饰段
      * */
      def parserClassBody : Parser[Any] = {
        rep(parserFun|parserField)~rep(parserSection)
      }
    
      /**
       * 解析每一个具体的范围访问段。可能是public、private或者protected,并且包含一些列的方法和字段
       */
      def parserSection : Parser[Any] = {
        ("public"|"private"|"protected")~":" ~rep(parserFun|parserField)
      }
      /*
      * 解析方法的声明,在此没有解析方法的定义,比较复杂。
      * 1. opt(opt("virtual")~(parserReturnValue|"~")) 方法的返回值,之所以使用opt,是因为构造函数没有返回值,~用于析构函数的解析
      * 2. ident  方法名称,在此没有解析操作符重载方法,如果需要,需要另外单独定义,
      * 3. "("~repsep(parserFunParam,",")~")" 解析参数列表,不支持 (void) 模式的参数,请使用()替代(void)
      * 4. opt("const") 可选的const修饰符
      * 5.; 函数声明结束
      *
      * 没有包含静态方法(static),很容易根据此模板写出来
      * */
      def parserFun : Parser[Any] ={
        opt(opt("virtual")~(parserReturnValue|"~"))~ident~"("~repsep(parserFunParam,",")~")"~opt("const")~";"
      }
    
      /**
       * 解析返回值
       * 1.包含可选的const修饰符
       * 2.返回值的具体类型
       * 3.包含可选的引用
       */
      def parserReturnValue : Parser[Any] ={
        opt("const")~parserType~opt("&")
      }
    
      /**
       * 解析一个函数参数,数据类型与 parserReturnValue,不过多了参数名称和可选的默认值
       */
      def parserFunParam : Parser[Any] = {
        opt("const")~parserType~opt("&")~ident~opt("="~(numericLit|stringLit|ident)) // 默认参数支持false,true,数字,字符串
      }
      /*
      * 解析字段定义
      * 1.可选的字段修饰符
      * 2.字段数据类型,不支持unsigned,相对容易。在此不给出
      * 3.ident 字段名称
      * 4.; 字段定义结束*/
      def parserField : Parser[Any] ={
        opt("const"|"mutable"|"static") ~parserType~ident~";"
      }
      def parserAll[T]( p : Parser[T], input :String) = {
        phrase(p)( new lexical.Scanner(input))
      }
    
    }
    
    object CPlusPlusParser {
      def main( args : Array[String]) {
    
        val c = new CPlusPlusParser
    
        val r = c.parserAll(c.parserClass,
          """
            |class MyClass : public A, public N {
            |int a;
            |void SetA( int v );
            |int GetA()const;
            |public :
            |int a;
            |void SetA( int v );
            |int GetA()const;
            |};
          """.stripMargin)
    
        println(r)
    
        /* 测试输出
        [11.11] parsed: ((((((class~MyClass)~Some((:~List((Some(public)~((List()~A)~None)), (Some(public)~((List()~N)~None))))))~{)~Some((List((((None~((List()~int)~None))~a)~;), ((((((Some((None~((None~((List()~void)~None))~None)))~SetA)~()~List(((((None~((List()~int)~None))~None)~v)~None)))~))~None)~;), ((((((Some((None~((None~((List()~int)~None))~None)))~GetA)~()~List())~))~Some(const))~;))~List(((public~:)~List((((None~((List()~int)~None))~a)~;), ((((((Some((None~((None~((List()~void)~None))~None)))~SetA)~()~List(((((None~((List()~int)~None))~None)~v)~None)))~))~None)~;), ((((((Some((None~((None~((List()~int)~None))~None)))~GetA)~()~List())~))~Some(const))~;)))))))~})~;)
    
    Process finished with exit code 0
         */
      }
    }

    后续目标是分析头文件,提前所有类和枚举的定义。自动转换为protobuf接口,并且自动生成protobuf消息和类之间进行编解码的接口。还可以以类为蓝本生成其它语言的对象及其与protobuf消息之间的编解码。这样以后在涉及到客户机和服务器通信的时候,大部分的业务数据对象都只要写一次,其它自动生成,并小改动。

    想要写个C++类的词法文法分析由来已久。一直找不到好的方法,之前尝试使用正则表达式来解析,但是有点受限,正则表达式过于复杂,而且一般是按行分析的。之所以要分析提取C++类的信息
    参考: 

    Scala词法文法解析器 (一)解析SparkSQL的BNF文法

     
    转自:Scala 文法词法分析---分析C++类的声明
  • 相关阅读:
    大厂Redis高并发场景设计,面试问的都在这!
    POJ1006——中国剩余定理
    HDU3501——欧拉函数裸题
    堆-动态的排序(洛谷1801-黑匣子)
    图中欧拉回路数量
    ip地址
    网络通信概述
    网络通信概述
    软件安装与卸载
    软件安装与卸载
  • 原文地址:https://www.cnblogs.com/barrywxx/p/10803950.html
Copyright © 2011-2022 走看看