zoukankan      html  css  js  c++  java
  • XML文件解析器TXml

    前几天看了开源的XML文件解析器TinyXml,它是怎么实现解析的没怎么看懂,于是决定自己实现一个,反正最近不忙。先命名为TXml。现在完成了解析和查询功能,全部代码加起来不到1000行,将会继续完善它。源码必共享

    先简单说一下我的思路:

    1:读取XML文件信息,并存入一个字符数组中;

    2:遍历数组,将数组解析成一棵树;

    3:以路径的方式查询和按属性查询;

    这个解析器最麻烦的地方就在怎么将字符数组解析成一颗树。我们先看一下一个简单XML文件,他包括文件头、节点、节点名称及节点值、属性名称及属性值,子节点、父节点、注释等。

    <?xml version="1.0" encoding="utf-8" ?>
    <!--注释-->
    <Items>
      <item name="chentaihan">89757</item>
    </Items>

    简单介绍一下解析的实现,不太好说清楚,看代码可能更容易理解一些。递归实现,每次都从一个节点开始解析,就是从字符“<”开始,到字符“>”结束,字符<后面就是节点的名称,之后的就是节点属性,字符>后一个字符如果不是<,那就是节点的值,如果是字符<,可能是子节点也可能是这个节点结束了。遇到字符<开始递归,空格和注释直接被PASS。大致代码如下:

    const char* TXmlParser::ParseContent(const char* p,XmlNode* baseNode)
    { 
        if(p==NULL || !*p) 
            return NULL; 
        if(*p=='<')//开始一个节点
        {
            bool isNote;
            p=SkipNote(p,isNote);//跳过注释
            if(isNote) {//是注释
                ParseContent(p,baseNode); 
                return NULL;
            } 
            if(*p=='/')//结束节点
            {
                while(p!=NULL && *p && *p!='>')
                {
                    p++;
                } 
                ++p=SkipWhiteSpace(p);
                ParseContent(p,baseNode->parent);//新节点
            }else{ //节点属性  
                string name;
                while(p!=NULL && *p && *p!='>' && *p!=' ' && *p!='/')
                {
                     name.push_back(*p++); 
                }
                XmlNode* node=new XmlNode(name,baseNode);
                baseNode->AppendNode(node);
    
                if(*p=='>')
                {
                    ++p=SkipWhiteSpace(p); 
                    ParseContent(p,node);//新节点
                }else{
                    p=GetAttr(p,node);
                    if(*p=='/')
                    {
                        while(p!=NULL && *p && *p!='<')
                            p++;
                        ParseContent(p,baseNode);//新节点
                    }else{
                        ++p=SkipWhiteSpace(p);  
                        ParseContent(p,node);//新节点
                    }
                }  
            }
        }else{//节点的值 
            GetNodeValue(p,baseNode);
        } 
    }

    按路径的方式查询。利用两个数组实现,假设这两个数组分别为A,B;第一次查询将结果存入数组A,将A作为数据源,将查询结果存入B,清除A中的数据,将B作为数据源,将查询结果存入A,反复进行,最后A,B中有一个就是查询结果。当然也可以用递归实现,我们都知道递归太深容易爆线程栈,且性能低。

    按属性查询。同样没有用递归实现,有个经常出现的面试题:按层序打印一个棵树。那么这里也是按层序查找,就是利用一个队列,按根节点、根节点的直接子节点进栈,一个个匹配,不匹配就出队列。

    //根据属性查询--利用队列按层序查询
    XmlNode* XmlNode::SelectSingleNodeByAttr(const string& attrName,const string& attrValue,XmlNode* node)
    {  
        if(node==NULL)
            return NULL; 
        if(node->attribute!=NULL && (*node->attribute)[attrName]==attrValue)
        { 
            return node;
        } 
        queue<XmlNode*> list; 
        for(int i=node->ChildCount()-1;i>=0;i--)
        {
            list.push((*node->childNodes)[i]); 
        }
    
        while(list.size()>0)
        {
            XmlNode* tmpNode=list.front();
            if(tmpNode->attribute!=NULL && (*tmpNode->attribute)[attrName]==attrValue)
            { 
                return tmpNode;
            }
            for(int i=tmpNode->ChildCount()-1;i>=0;i--)
            {
                list.push((*tmpNode->childNodes)[i]); 
            }
            list.pop();
        } 
        return NULL;
    }

    看了按属性查找,我们就很容易知道,C#中ConfigurationManager读取配置文件的大致实现,因为配置文件很简单,就是一个节点下面有多个节点,完全可以这样实现,根节点基本可以无视,直接就是一个字典,KEY存key的值,VALUE存value的值,查找的时间复杂度就是O(1)。

    简单测试:

    #include "XmlDocument.h"
     
    int main()
    {
        {    
            XmlDocument doc;
            doc.Load("test.txt");   
            cout<<"XML头部:"<<doc.Head().c_str()<<endl;
            cout<<"显示全部学生成绩:" ;
            doc.ShowXML(doc);  
            cout<<endl;
            vector<XmlNode*> vect;
            doc.SelectNodes("students/student/courses/course",vect);
             
            XmlNode* node=doc.SelectSingleNode("students/Student/courses/course/Course"); 
    
            if(node!=NULL)
            {
                node->ShowXML(*node); 
                cout<<"name:"<<node->Name().c_str()<<endl;
                cout<<"属性:";
                node->ShowAttr() ; 
                cout<<endl;
                cout<<"value:"<<node->Value().c_str()<<endl;
                cout<<"ChildCount:"<<node->ChildCount()<<endl<<endl;
                
                 XmlNode::Iterator iter=node->begin();
                while(iter!=node->end())
                { 
                    cout<<"name:"<<(*((iter)._Ptr))->Name().c_str() <<endl;
                    cout<<"value:"<<(*((iter)._Ptr))->Value().c_str() <<endl; 
                    iter++;
                }  
            }   
            cout<<"查找name=‘英文’的节点:"<<endl;
            XmlNode* node2=doc.SelectSingleNodeByAttr("name","英文");
            if(node2!=NULL){
                node2->ShowXML(*node2); 
            }
        }
        
        system("pause");
        return 0;
    }

    运行结果如下:

     

    未完...待续...功能将会更加丰富,我们都值得期待!

  • 相关阅读:
    How to interpret complex C/C++ declarations (ZT)
    The Managed Thread Pool
    How slow is dynamic_cast?
    Type Safety
    sBRDF空间双向反射分布函数完全解析
    近日工作与生活梗概
    简单的环绕散射 Simple Wrap Diffuse From GPU GEMS1
    屈辱史
    难以忽视的细节
    物理学与计算机图形学中的HDR
  • 原文地址:https://www.cnblogs.com/hlxs/p/3014657.html
Copyright © 2011-2022 走看看