zoukankan      html  css  js  c++  java
  • XML 解析---dom解析和sax解析

    眼下XML解析的方法主要用两种:


    1、dom解析:(Document Object Model。即文档对象模型)是W3C组织推荐的解析XML的一种方式。


    使用dom解析XML文档,该解析器会先把XML文档载入到内存中,生成该XML文档相应的document对象,然后把XML文档中的各个标签元素变成相应的Element对象。文本会变成Text对象,属性会变成Attribute对象,并按这些标签、文本、属性在XML文档中的关系保存这些对象的关系。



    缺点:消耗内存。所以使用dom解析XML文档时不能解析太大的XML文档,否则有可能会造成内存溢出。
    长处:使用dom解析XML文档能够非常方便的运行增删改查操作(能够直接依据节点相应的对象进行操作)。



    2、sax解析:Simple API for XML,不是官方标准,但它是XML社区其实的标准,差点儿全部的XML解析器都支持它。

    使用sax解析XML文档,该解析器会从上往下读。读一行。解析一行;

    长处:由于它解析XML文档是採取读一行,解析一行的方式,所以它不会对内存造成压力。
    缺点:不适合运行增删改查的操作(也是由于它解析XML文档时採取的读一行解析一行的方式,所以它不能往回操作)。仅仅适合对XML文档进行读取操作。

    ======================================================================================================

    补充:

    XML解析开发包:Jaxp(sun)、Jdom、dom4j;

    ======================================================================================================

    调整JVM内存大小:


    当我们要解析的XML文档内存比較大、并且要对该XML中的节点数据进行相关的操作时,使用这两种解析方式显然都会不方便,这时就须要调整JVM内存的大小了。




    JVM默认的同意最大内存容量是64M(依据jdk的版本号不同,默认的最大容量值不一样,jdk5.0版本号的是64MB。jdk7版本号的是170MB)。



    调整JVM内存大小的方法(对应的命令为:-Xmx内存大小值单位):

    在Eclipse中的项目导航框中右击对应的Java程序》》Run As》》Open Run Dialog...》》打开Run对话框》》选择Arguments选项,在开窗体中有两个输入框,第一个是程序的參数输入框。第二个是VM的參数输入框,在第二个VM的參数输入框中输入Xmx200M》》点击右下角的Runbutton,运行对应的Java程序。就不会报OutOfMemoryError的错误了。



    ======================================================================================================

    XML解析开发包:
    1、JAXP:JAXP开发包是J2SE的一部分。它由javax.xml、org.w3c.dom、org.xml.sax包及其子包组成。


    在javax.xml.parsers包中。定义了几个工厂类,程序猿调用这些工厂类,能够得到XML文档的dom或sax的解析器,从而实现对XML文档的解析。

    首先、创建工厂:
    DocumentBuilderFactory factory = DocumentBuilderFactroy.newInstance();//由于DocumentBuilderFactory类是抽象类。不能new出它的对象仅仅能调用它的静态方法获取它的对象。
    其次、得到dom解析器:
    DocumentBuilder builder = factory.newDocumentBuilder();
    然后、载入XML文档。得到代表文档的Document对象:
    Document document = builder.parse("*.xml");
    拿到代表XML文档的document对象就能够操作XML文档中的各个节点了。



    ======================================================================================================

    补充:
    dom解析下,XML文档的每个组成部分都会用一个对象表示。比如标签用Element。属性用Attribute,但无论什么对象。都是Node的子类,所以在开发中能够把获取到的随意节点都当作Node对待。

     

    XML编程(CRUD)
    create、read、update、delete
    加入、查询、更新、删除;

    除了这两种解析方法外,还有另外的解析方法。。


    ======================================================================================================

    在对XML文档进行加入、改动和删除操作时,不仅要更新document对象还要更新XML文档(把更新后的document对象重写到XML文档中)。

    javax.xml.transform包中的Transformer类用于把代表XML文档的Document对象转换为某种格式后输出,比如把XML文档应用样式表后转换成一个HTML文档。利用这个对象,当然也能够把Document对象又又一次写入到一个XML文档中。源和目的地。能够通过:
    javax.xml.transform.dom.DOMSource类来关联要转换的document对象,
    用javax.xml.transform.stream.StreamResult对象来表示数据的目的地。
    Transformer对象通过TransformerFactory获得。
    Transformer类通过transform方法完毕转换操作。该方法接收个
    (工厂对象(TransformerFactory)》》》转换器对象(Transformer)》》》转换方法(transform(DOMSource 源。StreamResult 目的地);))
    ======================================================================================================

    SAX解析:

    SAX解析採用事件处理的方式解析XML文件。利用SAX解析XML文档,涉及两个部分:解析器和事件处理器:
    解析器能够使用JAXP的API创建。创建出SAX解析器后,就能够指定解析器去去解析某个XML文档。
    解析器採用SAX方式在解析某个XML文档时。它仅仅要解析到XML文档的一个指定部分,都会去调用事件处理器的一个方法,解析器在调用事件处理器的方法时,会把当前解析到的XML文件内容作为方法的參数传递给事件处理器。


    事件处理器由程序猿编写,程序猿通过事件处理器中方法的參数,就能够非常轻松的得到SAX解析器解析到的数据,从而能够决定怎样对数据进行处理。



    1、创建解析工厂;
    SAXParserFactory fac = SAXParserFactory.newInstance();

    2、获取解析器。
    SAXParser sp = fac.newSAXParser();

    3、得到读取器;
    XMLReader re = sp.getXMLReader();

    4、设置内容处理器;
    re.setContentHandler(new ContentHandler(){ /*实现接口的代码块*/});
    (或者:re.setContentHandler(new DefaultHandler());/*參数为DefaultHandler类的子类*/)
    第一种方法是解析整个XML文档。另外一种方法能够仅仅解析某个标签;
    事实上另一种内容处理器,也是先继承DefaultHandler类,然后把解析的内容封装到bean对象中。 

    5、读取XML文档内容。
    re.parse("*.xml"); 

    ======================================================================================================

    XML解析开发包:

    2、dom4j:

    SAXReader saxReader = new SAXReader();
    Document doc = saxReader.read(new File());

    OutputFormat format = OutputFormat.createPrettyPrint();//该对象标明格式按美丽的格式进行输出;另外另一个对象是按紧凑的格式进行输出;
    format.setEncoding("UTF-8");

    XMLWriter xmlWriter = new XMLWriter(new FileOutputStream(),format);
    xmlWriter.write(doc);//假设xmlWriter对象採用的流是字节流,那么该对象会先把doc对象按format对象给定的编码格式转换成字节,然后把数据交给字节流进行操作。


    writer.close();//最后要关闭资源

    ======================================================================================================

    XPath:
    使用XPath能够高速定位到某个节点。
    List list = document.selectNodes("//foo/bar");//获取foo节点下的全部bar节点;

    Node node = document.selectSingleNode("//foo/bar");//获取foo节点下的第一个bar节点;

    单斜杠是绝对路径即从根节点開始;
    双斜杠是相对路径即从全部当前节点開始。

    星号“*”表示选择全部由星号之前的路径所定位的元素;
    比如:
    /aa/bb/*表示选择全部路径依附于/aa/bb的元素;
    /*/*/*/bbb表示选择全部的有3个祖先元素的bbb元素;
    //bb[@*]表示选择有随意属性的bb元素。
    //bb[not(@*)]表示选择没有属性的bb元素;
    //bb[@id='b1']表示选择含有属性id='b1'的bb元素;

















  • 相关阅读:
    异步与回调的设计哲学
    CTF之PHP黑魔法总结
    图片隐写分离
    phpMyadmin各版本漏洞
    python 多线程
    order by name 注入
    Python lambda
    Python os.popen() 方法
    你和大牛差了啥
    Error: failure: repodata/repomd.xml from fedora: [Errno 256] No more mirrors to try.
  • 原文地址:https://www.cnblogs.com/brucemengbm/p/6917265.html
Copyright © 2011-2022 走看看