zoukankan      html  css  js  c++  java
  • Python语言解析xml文件

    python语言解析xml文件的常用的有两种方式:

    • 通过MiniDom库解析xml文件
    • 通过ElementTree库解析xml文件

    MiniDom方式解析xml

     xml文件以data.xml为例,具体操作如下:

    data.xml:

    <?xml version="1.0" encoding="utf-8"?>

    <info>

       <intro>保存用户的信息</intro>

        <list id='001'>

            <head>auto_userone</head>

            <name>Jordy</name>

            <number>12345678</number>

            <age>20</age>

            <sex></sex>

            <hobby>上网</hobby>

        </list>

     

       <list id='002'>

            <head>auto_usertwo</head>

            <name>功夫</name>

             <number>34443678</number>

             <age>18</age>

             <sex></sex>

             <hobby>功夫</hobby>

         </list>

     

    </info>

     1.  得到DOM对象

        DOMDocument Object Model的简称,它是以对象树来表示一个XML

         import xml.dom.minidom

         #得到dom对象

         dom = xml.dom.minidom.parse("data.xml")

    2.  得到文档元素对象

    #得到文档元素对象

    root = dom.documentElement  #这里得到的是根节点info

    #打印根节点的 名字       节点的值      节点类型

    print(root.nodeName, root.nodeValue, root.nodeType)

    节点的属性:

    每一个节点都有它的nodeNamenodeValuenodeType属性。nodeName为节点名字。

    nodeValue是节点的值,只对文本节点有效。nodeType是节点的类型,现在有以下几种:

    ‘ATTRIBUTE_NODE’

    ‘CDATA_SECTION_NODE’

    ‘COMMENT_NODE’

    ‘DOCUMENT_FRAGMENT_NODE’

    ‘DOCUMENT_NODE’

    ‘DOCUMENT_TYPE_NODE’

    ‘ELEMENT_NODE’

    ‘ENTITY_NODE’

    ‘ENTITY_REFERENCE_NODE’

    ‘NOTATION_NODE’

    ‘PROCESSING_INSTRUCTION_NODE’

    ‘TEXT_NODE’

    Node.ELEMENT_NODE == 1

    Node.ATTRIBUTE_NODE == 2

    Node.TEXT_NODE == 3

    Node.CDATA_SECTION_NODE == 4

    Node.ENTITY_REFERENCE_NODE == 5

    Node.ENTITY_NODE == 6

    Node.PROCESSING_INSTRUCTION_NODE == 7

    Node.COMMENT_NODE == 8

    Node.DOCUMENT_NODE == 9

    Node.DOCUMENT_TYPE_NODE == 10

    Node.DOCUMENT_FRAGMENT_NODE == 11

    Node.NOTATION_NODE == 12

    3.子元素、子节点的访问

    对于已经知道元素名字的子元素,可以通过使用getElementsByTagName()方法访问,例:

    root.getElementsByTagName("intro") #读取intro子元素

    返回的结果是一个列表。

    如果要得到某元素下的所有子节点,可以使用childNodes属性:

    root.childNodes

    getElementsByTagName()可以搜索当前元素的所有子元素,包括所有层次的子元素。childNodes只保存了当前元素的第一层子结点。

    比如:我们想要得到intro元素下的值保存用户的信息,实现如下代码:

    node = root.getElementsByTagName("intro")[0]

    for node in node.childNodes:

        if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):

            print (node.data)

     

    这种方式在获取元素的文本时,需要先判断才行,所以使用起来感觉不是太方便。

     

    ElementTree库解析xml文件

    ElementTree属于python标准库的一部分,ElementTreeparse()方法是这个库的主要入口,它使用文件名或流对象作为参数,parse()方法会立即解析完整个文档,它返回的对象是整个文档的对象,而不是根元素,如果要获取根元素,可以调用getroot()方法。

    使用上述的data.xml文档,通过ElementTree库解析的代码:

    import xml.etree.ElementTree as ET

    #读取xml文件 def load_xml_file(fileName):

    root = ET.parse(fileName).getroot()

    #获取文件描述

    intro = root.find('intro').text

    print(intro)

    #获取所有list节点 all_users = root.findall('list')

    #遍历list节点的子元素

    for user in all_users:

        #得到head节点的文本

        head = user.find('head').text  

        #得到name节点的文本

        name = user.find('name').text

       #得到sex节点的文本

       sex = user.find('sex').text

            print(head, name, sex)

    if __name__ == '__main__':

     

        load_xml_file('data.xml')

     

    通过这种方式解析xml文件比起使用minidom库解析xml文件的,操作要方便的多。

    作者:Shane
    出处:http://bluescorpio.cnblogs.com
    本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
  • 相关阅读:
    jQuery 之用on()代替bind()
    jQuery之delegate(已废弃)
    jQuery 之只运行一次的处理函数(one)
    jQuery 之移除事件(off)
    jQuery动态添加事件(on)可用于未来元素
    jQuery 之动态添加事件(on)
    IDEA环境配置——把类封装为jar工具包以供他人调用
    IDEA导出可执行的jar包
    springboot+async异步接口实现和调用
    阿里巴巴Java开发规约扫描插件-Alibaba Java Coding Guidelines 在idea上安装使用教程
  • 原文地址:https://www.cnblogs.com/bluescorpio/p/2357620.html
Copyright © 2011-2022 走看看