zoukankan      html  css  js  c++  java
  • SAX解析XML文件

    SAX解析XML文件采用事件驱动的方式进行,也就是说,SAX是逐行扫描文件,遇到符合条件的设定条件后就会触发特定的事件,回调你写好的事件处理程序。使用SAX的优势在于其解析速度较快,相对于DOM而言占用内存较少。而且SAX在解析文件的过程中得到自己需要的信息后可以随时终止解析,并不一定要等文件全部解析完毕。凡事有利必有弊,其劣势在于SAX采用的是流式处理方式,当遇到某个标签的时候,它并不会记录下以前所遇到的标签,也就是说,在处理某个标签的时候,比如在startElement方法中,所能够得到的信息就是标签的名字和属性,至于标签内部的嵌套结构,上层标签、下层标签以及其兄弟节点的名称等等与其结构相关的信息都是不得而知的。实际上就是把XML文件的结构信息丢掉了,如果需要得到这些信息的话,只能你自己在程序里进行处理了。所以相对DOM而言,SAX处理XML文档没有DOM方便,SAX处理的过程相对DOM而言也比较复杂。

      SAX采用事件处理的方式解析XML文件,利用 SAX 解析 XML 文档,涉及两个部分:解析器和事件处理器:
    解析器可以使用JAXP的API创建,创建出SAX解析器后,就可以指定解析器去解析某个XML文档。
    解析器采用SAX方式在解析某个XML文档时,它只要解析到XML文档的一个组成部分,都会去调用事件处理器的一个方法,解析器在调用事件处理器的方法时,会把当前解析到的xml文件内容作为方法的参数传递给事件处理器。
    事件处理器由程序员编写,程序员通过事件处理器中方法的参数,就可以很轻松地得到sax解析器解析到的数据,从而可以决定如何对数据进行处理。

    备注说明:SAX API中主要有四种处理事件的接口,它们分别是ContentHandler,DTDHandler, EntityResolver 和 ErrorHandler 

     这里使用最多的就是ContentHandler,仔细阅读 API文档,了解常用方法:startElement、endElement、characters等

     1.startElement方法说明

     

    1. void startElement(String uri,  
    2.                   String localName,  
    3.                   String qName,  
    4.                   Attributes atts)  
    5.                   throws SAXException  
    6. 方法说明:  
    7. 解析器在 XML 文档中的每个元素的开始调用此方法;对于每个 startElement 事件都将有相应的 endElement 事件(即使该元素为空时)。所有元素的内容都将在相应的 endElement 事件之前顺序地报告。  
    8.   
    9. 参数说明:  
    10. uri - 名称空间 URI,如果元素没有名称空间 URI,或者未执行名称空间处理,则为空字符串  
    11. localName - 本地名称(不带前缀),如果未执行名称空间处理,则为空字符串  
    12. qName - 限定名(带有前缀),如果限定名不可用,则为空字符串  
    13. atts - 连接到元素上的属性。如果没有属性,则它将是空 Attributes 对象。在 startElement 返回后,此对象的值是未定义的  

     2.endElement方法说明

     

    1. void endElement(String uri,  
    2.                 String localName,  
    3.                 String qName)  
    4.                 throws SAXException接收元素结束的通知。   
    5. SAX 解析器会在 XML 文档中每个元素的末尾调用此方法;对于每个 endElement 事件都将有相应的 startElement 事件(即使该元素为空时)。  
    6.   
    7. 参数:  
    8. uri - 名称空间 URI,如果元素没有名称空间 URI,或者未执行名称空间处理,则为空字符串  
    9. localName - 本地名称(不带前缀),如果未执行名称空间处理,则为空字符串  
    10. qName - 限定的 XML 名称(带前缀),如果限定名不可用,则为空字符串  


    3.characters方法

     

    1. void characters(char[] ch,  
    2.                 int start,  
    3.                 int length)  
    4.                 throws SAXException  
    5. 接收字符数据的通知,可以通过new String(ch,start,length)构造器,创建解析出来的字符串文本.  
    6. 参数:  
    7. ch - 来自 XML 文档的字符  
    8. start - 数组中的开始位置  
    9. length - 从数组中读取的字符的个数   


    其它方法请参考api数据

    下面我们就具体讲解sax解析的操作.

    一.我们通过XMLReaderFactory、XMLReader完成,步骤如下

     

    1. 1.通过XMLReaderFactory创建XMLReader对象  
    2. XMLReader reader = XMLReaderFactory.createXMLReader();  
    3. 2. 设置事件处理器对象  
    4. reader.setContentHandler(new MyDefaultHandler());  
    5. 3.读取要解析的xml文件  
    6. FileReader fileReader =new FileReader(new File("src\sax\startelement\web.xml"));  
    7. 4.指定解析的xml文件  
    8. reader.parse(new InputSource(fileReader));  


    案例:通过案例对uri、localName、qName和attribute参数有更加深入的了解

    1.首先创建要解析的web.xml文件,内容如下

    1. <?xml version="1.0" encoding="UTF-8"?>  
    2. <web-app version="2.5"   
    3.     xmlns:csdn="http://java.sun.com/xml/ns/javaee"   
    4.     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"   
    5.     xsi:schemaLocation="http://java.sun.com/xml/ns/javaee   
    6.     http://java.sun.com/xml/ns/javaee/web-app_2_5.xsd">  
    7.   <csdn:display-name></csdn:display-name>     
    8. </web-app>  
    9. <!--   
    10. uri - 名称空间 URI,如果元素没有任何名称空间 URI,或者没有正在执行名称空间处理,则为空字符串。  
    11. xml namespace-xmlns  
    12. localName - 本地名称(不带前缀),如果没有正在执行名称空间处理,则为空字符串。  
    13. qName - 限定的名称(带有前缀),如果限定的名称不可用,则为空字符串。  
    14. attributes - 附加到元素的属性。如果没有属性,则它将是空的 Attributes 对象。   
    15.  -->  


    2.创建解析测试类及事件处理的内部类代码如下

     

    1. package sax.startelement;  
    2.   
    3. import java.io.File;  
    4. import java.io.FileReader;  
    5.   
    6. import org.junit.Test;  
    7. import org.xml.sax.Attributes;  
    8. import org.xml.sax.InputSource;  
    9. import org.xml.sax.SAXException;  
    10. import org.xml.sax.XMLReader;  
    11. import org.xml.sax.helpers.DefaultHandler;  
    12. import org.xml.sax.helpers.XMLReaderFactory;  
    13.   
    14. public class Demo3 {  
    15.   
    16.     @Test  
    17.     public void test() throws Exception {  
    18.         // 通过XMLReaderFactory创建XMLReader对象  
    19.         XMLReader reader = XMLReaderFactory.createXMLReader();  
    20.         // 设置事件处理器对象  
    21.         reader.setContentHandler(new MyDefaultHandler());  
    22.         // 读取要解析的xml文件  
    23.         FileReader fileReader = new FileReader(new File(  
    24.                 "src\sax\startelement\web.xml"));  
    25.         // 指定解析的xml文件  
    26.         reader.parse(new InputSource(fileReader));  
    27.     }  
    28.   
    29.     // 自定义的解析类,通过此类中的startElement了解uri,localName,qName,Attributes的含义  
    30.     class MyDefaultHandler extends DefaultHandler {  
    31.   
    32.         @Override  
    33.         public void startElement(String uri, String localName, String qName,  
    34.                 Attributes attributes) throws SAXException {  
    35.             super.startElement(uri, localName, qName, attributes);  
    36.             System.out  
    37.                     .println("--------------startElement开始执行--------------------------");  
    38.             System.out.println("uri:::" + uri);  
    39.             System.out.println("localName:::" + localName);  
    40.             System.out.println("qName:::" + qName);  
    41.             for (int i = 0; i < attributes.getLength(); i++) {  
    42.                 String value = attributes.getValue(i);// 获取属性的value值  
    43.                 System.out.println(attributes.getQName(i) + "-----" + value);  
    44.             }  
    45.             System.out  
    46.                     .println("------------------startElement执行完毕---------------------------");  
    47.         }  
    48.   
    49.     }  
    50. }  


    3.程序运行的结果如下:


    通过运行结果,希望你对uri,localName,qName有更加深入的了解.

    二.我们通过SAXParserFactory、SAXParser、XMLReader完成,步骤如下

    1.使用SAXParserFactory创建SAX解析工厂
    SAXParserFactory spf = SAXParserFactory.newInstance();
    2.通过SAX解析工厂得到解析器对象
    SAXParser sp = spf.newSAXParser();
    3.通过解析器对象得到一个XML的读取器
    XMLReader xmlReader = sp.getXMLReader();
    4.设置读取器的事件处理器
    xmlReader.setContentHandler(new BookParserHandler());
    5.解析xml文件
    xmlReader.parse("book.xml");

    说明:如果只是使用SAXParserFactory、SAXParser他们完成只需要如下3步骤

    1.获取sax解析器的工厂对象
    SAXParserFactory factory = SAXParserFactory.newInstance();
    2.通过工厂对象 SAXParser创建解析器对象
    SAXParser saxParser = factory.newSAXParser();
    3.通过解析saxParser的parse()方法设定解析的文件和自己定义的事件处理器对象
    saxParser.parse(new File("src//sax//sida.xml"), new MyDefaultHandler());

    案例:解析出"作者"元素标签中的文本内容

    1.需要解析的sida.xml文件

     

    1. <?xml version="1.0" encoding="UTF-8"?>  
    2. <!DOCTYPE 四大名著[  
    3. <!ELEMENT 四大名著 (西游记,红楼梦)>  
    4. <!ATTLIST 西游记 id ID #IMPLIED>  
    5. ]>  
    6. <四大名著>  
    7.     <西游记 id="x001">  
    8.         <作者>吴承恩</作者>  
    9.     </西游记>  
    10.     <红楼梦 id="x002">  
    11.         <作者>曹雪芹</作者>  
    12.     </红楼梦>  
    13. </四大名著>  


    2.解析测试类和事件处理器类的实现代码

    1. package sax;  
    2.   
    3. import java.io.File;  
    4.   
    5. import javax.xml.parsers.SAXParser;  
    6. import javax.xml.parsers.SAXParserFactory;  
    7.   
    8. import org.junit.Test;  
    9. import org.xml.sax.Attributes;  
    10. import org.xml.sax.SAXException;  
    11. import org.xml.sax.helpers.DefaultHandler;  
    12.   
    13. public class SaxTest {  
    14.   
    15.     @Test  
    16.     public void test() throws Exception {  
    17.         // 1.获取sax解析器的工厂对象  
    18.         SAXParserFactory factory = SAXParserFactory.newInstance();  
    19.         // 2.通过工厂对象 SAXParser创建解析器对象  
    20.         SAXParser saxParser = factory.newSAXParser();  
    21.         // 3.通过解析saxParser的parse()方法设定解析的文件和自己定义的事件处理器对象  
    22.         saxParser.parse(new File("src//sax//sida.xml"), new MyDefaultHandler());  
    23.   
    24.     }  
    25.   
    26.     // 自己定义的事件处理器  
    27.     class MyDefaultHandler extends DefaultHandler {  
    28.   
    29.         // 解析标签开始及结束的的标识符  
    30.         boolean isOk = false;  
    31.   
    32.         @Override  
    33.         public void startElement(String uri, String localName, String qName,  
    34.                 Attributes attributes) throws SAXException {  
    35.             super.startElement(uri, localName, qName, attributes);  
    36.             // 当解析作者元素开始的时候,设置isOK为true  
    37.             if ("作者".equals(qName)) {  
    38.                 isOk = true;  
    39.             }  
    40.         }  
    41.   
    42.         @Override  
    43.         public void characters(char[] ch, int start, int length)  
    44.                 throws SAXException {  
    45.             // TODO Auto-generated method stub  
    46.             super.characters(ch, start, length);  
    47.             // 当解析的标识符为true时,打印元素的内容  
    48.             if (isOk) {  
    49.                 System.out.println(new String(ch, start, length));  
    50.             }  
    51.         }  
    52.           
    53.         @Override  
    54.         public void endElement(String uri, String localName, String qName)  
    55.                 throws SAXException {  
    56.             super.endElement(uri, localName, qName);  
    57.             // 当解析作者元素的结束的时候,设置isOK为false  
    58.             if ("作者".equals(qName)) {  
    59.                 isOk = false;  
    60.             }  
    61.         }  
    62.   
    63.     }  
    64. }  


    3.程序运行结果如下:


  • 相关阅读:
    跳转网页
    在代码插入图像的位置
    图像宽度和高度
    添加图像
    指向同一网站中其中的页面的链接
    指向其他网站的链接
    嵌套列表
    定义
    LeetCode561 数组拆分 I
    LeetCode344 反转字符串
  • 原文地址:https://www.cnblogs.com/zjm-1/p/9350884.html
Copyright © 2011-2022 走看看