zoukankan html css js c++ java

解析XML文件的几种常见操作方法—DOM/SAX/DOM4j

　　一直想学点什么东西，有些浮躁，努力使自己静下心来看点东西，哪怕是回顾一下知识。看到了xml解析，目前我还没用到过。但多了解一下，加深点记忆和理解也无害处，权当复习吧。

　　在此只写下常见的三种XML解析方法，即DOM解析、SAX解析、DOM4J解析。

　　先上一份xml文件，关于xml文件的格式和创建方法，在此不多说了。

 1 <?xml version="1.0" encoding="utf-8"?>
 2 <root>
 3     <class name="class1">
 4         <student>
 5             <name>张三</name>
 6             <age>20</age>
 7             <sex>男</sex>
 8         </student>
 9         <student>
10             <name>Andy</name>
11             <age>22</age>
12             <sex>female</sex>
13         </student>
14     </class>
15     <class name="class2">
16         <student>
17             <name>李四</name>
18             <age>15</age>
19             <sex>男</sex>
20         </student>
21         <student>
22             <name>bigbang</name>
23             <age>21</age>
24             <sex>女</sex>
25         </student>
26     </class>
27 </root>

DOM解析是一种消耗内存的解析方法，它先将整个xml文档装入内存，然后顺序读取，解析也是有些复杂，具体的操作都在注释中，不多说了。

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;

import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

import com.entity.Student;

public class DOMParse {

   private Student student;
   private List<Student> students;

   public void pasre() {
       students = new ArrayList<Student>();
       try {
           DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
           DocumentBuilder builder = dbf.newDocumentBuilder();
           // 在此没有使用InputStream作为参数，直接引用文件路径。
           Document doc = builder.parse("src/com/parseDom/test.xml");
           // 获取整个document元素
           Element element = doc.getDocumentElement();
           // 获取所有<class>子节点
           NodeList list = element.getElementsByTagName("class"); // <class>
           // 遍历class子节点
           for (int i = 0; i < list.getLength(); i++) {
               Element el = (Element) list.item(i);
               // 获取<student>节点
               NodeList stus = el.getElementsByTagName("student"); // <student>
               // 遍历student子节点
               for (int j = 0; j < stus.getLength(); j++) {
                   /**
                    * 获取student下所有子节点 此处有7个节点，分别是#text<name> #text<sex>
                    * #text<age> #text
                    * 对应的xml实际是<student>、<name>、#name、<sex>、#sex
                    * 、<age>、#age这七个子节点
                    * **/
                   NodeList lis = stus.item(j).getChildNodes();
                   // 每个student节点输出就是一个Student对象
                   student = new Student();
                   for (int k = 0; k < lis.getLength(); k++) {
                       // 当元素为节点元素时（非textValue），对比后取值
                       if (lis.item(k).getNodeType() == Node.ELEMENT_NODE) {
                           if ("name".equals(lis.item(k).getNodeName())) { // <name>
                               student.setName(lis.item(k).getFirstChild().getNodeValue());
                           }
                           if ("sex".equals(lis.item(k).getNodeName())) { // <sex>
                               student.setSex(lis.item(k).getFirstChild().getNodeValue());
                           }
                           if ("age".equals(lis.item(k).getNodeName())) { // <age>
                               student.setAge(Integer.parseInt(lis.item(k).getFirstChild().getNodeValue()));
                           }
                       }
                   }
                   students.add(student);
               }
           }

       } catch (ParserConfigurationException e) {
           e.printStackTrace();
       } catch (SAXException e) {
           e.printStackTrace();
       } catch (IOException e) {
           e.printStackTrace();
       } finally {
           for (Student stus : students) {
               System.out.println(stus.getName() + "--" + stus.getSex() + "--" + stus.getAge());
           }
       }
   }

   public static void main(String[] args) {
       DOMParse domParse = new DOMParse();
       domParse.pasre();
   }
}

SAX解析方法如下，依然看注释说明。

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;

import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import com.entity.Student;

public class SAXParse extends DefaultHandler{

   
   private Student student;
   private static List<Student> stus;
   private String preTag=null;

   //①程序启动执行
   @Override
   public void startDocument() throws SAXException {
           stus = new ArrayList<Student>();
   }
   
   //② 开始遍历元素时
   @Override
   public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
       if("student".equals(qName)){
           student = new Student();
//            student.setName(attributes.getValue(0));
       }
       preTag = qName;
   }

   //④元素遍历结束
   @Override
   public void endElement(String uri, String localName, String qName) throws SAXException {
       if("student".equals(qName)){
           stus.add(student);
           student = null;
       }
       preTag=null;
   }

   //③ 遍历取值过程
   @Override
   public void characters(char[] ch, int start, int length) throws SAXException {
       if(preTag!=null){
           String content = new String(ch,start,length);
           if("name".equals(preTag)){
               student.setName(content);
           }
           if("age".equals(preTag)){
               student.setAge(Integer.parseInt(content));
           }
           if("sex".equals(preTag)){
               student.setSex(content);
           }
       }
   }

   public void fun(){
       try {
           SAXParserFactory factory =SAXParserFactory.newInstance();
           SAXParser    parser = factory.newSAXParser();
           SAXParse handler = new SAXParse();
           parser.parse("src/com/parseDom/test.xml", handler);
       } catch (ParserConfigurationException e) {
           e.printStackTrace();
       } catch (SAXException e) {
           e.printStackTrace();
       } catch (IOException e) {
           e.printStackTrace();
       }
   }
   
   public static  List<Student> getStus(){
       return stus;
   }
   
   public static void main(String[] args) {
       new SAXParse().fun();
       for (Student stu : getStus()) {
           System.out.println(stu.getName()+"--"+stu.getAge()+"--"+stu.getSex());
       }
   }
}

DOM4J的解析方法如下，需要注意的是它的Document类和Element类是DOM4J的jar包提供的，不要引用错了。

import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;

import com.entity.Student;

public class DOM4J {

   private Student student;
   private List<Student> stus;
   
   @SuppressWarnings("unchecked")
   public void parse(){
       stus = new ArrayList<Student>();
       try {
           SAXReader reader = new SAXReader();
           
           //此处Document类和Element类均为DOM4j的jar包中的类
           Document doc =  reader.read("src/com/parseDom/test.xml");
           //获取根元素
           Element root = doc.getRootElement();
           //获取节点元素为"class"的迭代
           Iterator<Element> classss = root.elementIterator("class");
           while(classss.hasNext()){
               Element classs =classss.next();
               //获取节点元素为"student"的迭代
               Iterator<Element> students = classs.elementIterator("student");
               while (students.hasNext()) {
                   //每一个student节点元素都包括一个student对象
                   student = new Student();
                   Element els = students.next();
                   //根据节点元素取值
                   student.setName(els.elementText("name"));
                   student.setAge(Integer.parseInt(els.elementText("age")));
                   student.setSex(els.elementText("sex"));
                   stus.add(student);
               }
           }
       } catch (DocumentException e) {
           e.printStackTrace();
       } finally{
           for (Student stu : stus) {
               System.out.println(stu.getName()+"++"+stu.getSex()+"++"+stu.getAge());
           }
       }
   }
   
   
   public static void main(String[] args) {
       new DOM4J().parse();
   }
}

最后的输出结果是：

1 张三++男++20
2 Andy++female++22
3 李四++男++15
4 bigbang++女++21

其实每个解析的方法差不多，代码量比较小，很好理解。每个方法都有自己的特点，具体使用要看使用的环境了。

查看全文

相关阅读:
jmeter接口测试3-正则表达式提取器的使用
 Sublime中Markdown的安装与使用
 python使用you-get模块下载视频
 python BeautifulSoup模块的简要介绍
 python Requests模块的简要介绍
 mongodb基本操作的学习
 python中的常用方法
 网盘的选择，百度网盘、google drive 还是 Dropbox
python_爬虫一之爬取糗事百科上的段子
 pycharm的使用破解和Anaconda的使用

原文地址：https://www.cnblogs.com/zjhs/p/3569379.html