zoukankan      html  css  js  c++  java
  • xml模块

    XML虽然比JSON复杂,在Web中应用也不如以前多了,不过仍有很多地方在用,所以,有必要了解如何操作XML。

    DOM vs SAX

    操作XML有两种方法:DOM和SAX。DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点。SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件。

    正常情况下,优先考虑SAX,因为DOM实在太占内存。

    在Python中使用SAX解析XML非常简洁,通常我们关心的事件是start_elementend_elementchar_data,准备好这3个函数,然后就可以解析xml了。

    举个例子,当SAX解析器读到一个节点时:

    <a href="/">python</a>
    

      

    会产生3个事件:

    1. start_element事件,在读取<a href="/">时;

    2. char_data事件,在读取python时;

    3. end_element事件,在读取</a>时。

    用代码实验一下:

    from xml.parsers.expat import ParserCreate
    
    class DefaultSaxHandler(object):
        def start_element(self, name, attrs):
            print('sax:start_element: %s, attrs: %s' % (name, str(attrs)))
    
        def end_element(self, name):
            print('sax:end_element: %s' % name)
    
        def char_data(self, text):
            print('sax:char_data: %s' % text)
    
    xml = r'''<?xml version="1.0"?>
    <ol>
        <li><a href="/python">Python</a></li>
        <li><a href="/ruby">Ruby</a></li>
    </ol>
    '''
    
    handler = DefaultSaxHandler()
    parser = ParserCreate()
    parser.StartElementHandler = handler.start_element
    parser.EndElementHandler = handler.end_element
    parser.CharacterDataHandler = handler.char_data
    parser.Parse(xml)

    需要注意的是读取一大段字符串时,CharacterDataHandler可能被多次调用,所以需要自己保存起来,在EndElementHandler里面再合并。

    除了解析XML外,如何生成XML呢?99%的情况下需要生成的XML结构都是非常简单的,因此,最简单也是最有效的生成XML的方法是拼接字符串:

    L = []
    L.append(r'<?xml version="1.0"?>')
    L.append(r'<root>')
    L.append(encode('some & data'))
    L.append(r'</root>')
    return ''.join(L)

    如果要生成复杂的XML呢?建议你不要用XML,改成JSON。





    xml是实现不同语言或程序之间进行数据交换的协议,跟json差不多,但json使用起来更简单,不过,古时候,在json还没诞生的黑暗年代,大家只能选择用xml呀,至今很多传统公司如金融行业的很多系统的接口还主要是xml。

    xml的格式如下,就是通过<>节点来区别数据结构的:

     1 <?xml version="1.0"?>
     2 <data>
     3     <country name="Liechtenstein">
     4         <rank updated="yes">2</rank>
     5         <year>2008</year>
     6         <gdppc>141100</gdppc>
     7         <neighbor name="Austria" direction="E"/>
     8         <neighbor name="Switzerland" direction="W"/>
     9     </country>
    10     <country name="Singapore">
    11         <rank updated="yes">5</rank>
    12         <year>2011</year>
    13         <gdppc>59900</gdppc>
    14         <neighbor name="Malaysia" direction="N"/>
    15     </country>
    16     <country name="Panama">
    17         <rank updated="yes">69</rank>
    18         <year>2011</year>
    19         <gdppc>13600</gdppc>
    20         <neighbor name="Costa Rica" direction="W"/>
    21         <neighbor name="Colombia" direction="E"/>
    22     </country>
    23 </data>
    24 
    

    xml协议在各个语言里的都 是支持的,在python中可以用以下模块操作xml:

     1 import xml.etree.ElementTree as ET
     2  
     3 tree = ET.parse("xmltest.xml")
     4 root = tree.getroot()
     5 print(root.tag)
     6  
     7 #遍历xml文档
     8 for child in root:
     9     print(child.tag, child.attrib)
    10     for i in child:
    11         print(i.tag,i.text)
    12  
    13 #只遍历year 节点
    14 for node in root.iter('year'):
    15     print(node.tag,node.text)
    16 #---------------------------------------
    17 
    18 import xml.etree.ElementTree as ET
    19  
    20 tree = ET.parse("xmltest.xml")
    21 root = tree.getroot()
    22  
    23 #修改
    24 for node in root.iter('year'):
    25     new_year = int(node.text) + 1
    26     node.text = str(new_year)
    27     node.set("updated","yes")
    28  
    29 tree.write("xmltest.xml")
    30  
    31  
    32 #删除node
    33 for country in root.findall('country'):
    34    rank = int(country.find('rank').text)
    35    if rank > 50:
    36      root.remove(country)
    37  
    38 tree.write('output.xml')
     1 import xml.etree.ElementTree as ET
     2  
     3  
     4 new_xml = ET.Element("namelist")
     5 name = ET.SubElement(new_xml,"name",attrib={"enrolled":"yes"})
     6 age = ET.SubElement(name,"age",attrib={"checked":"no"})
     7 sex = ET.SubElement(name,"sex")
     8 sex.text = '33'
     9 name2 = ET.SubElement(new_xml,"name",attrib={"enrolled":"no"})
    10 age = ET.SubElement(name2,"age")
    11 age.text = '19'
    12  
    13 et = ET.ElementTree(new_xml) #生成文档对象
    14 et.write("test.xml", encoding="utf-8",xml_declaration=True)
    15  
    16 ET.dump(new_xml) #打印生成的格式
    17 
    18 创建xml文档
     1 #!/usr/bin/env python3
     2 #-*- coding:utf-8 -*-
     3 '''
     4 Administrator 
     5 2018/8/1 
     6 '''
     7 import xml.etree.ElementTree as ET
     8 
     9 # tree=ET.parse("xml_test")
    10 # root=tree.getroot()
    11 # print(root.tag)#data   tag是标签
    12 #
    13 # for child in root:
    14 #     print(child.tag,child.attrib)
    15 #     for 孙子 in child:
    16 #         print(孙子.tag,孙子.attrib,孙子.text)
    17 #         for i in 孙子:
    18 #             print(i.tag)
    19 
    20 
    21 
    22 # tree=ET.parse("xml_test")
    23 # root=tree.getroot()
    24 # print(root.tag)#data   tag是标签
    25 #
    26 # for node in root.iter("year"):
    27 #     new_year=int(node.text)+1
    28 #     node.text=str(new_year)
    29 #     node.set("updated","yew")
    30 # tree.write("xml_test_dome.xml")
    31 
    32 tree=ET.parse("xml_test")
    33 root=tree.getroot()
    34 print(root.tag)#data   tag是标签
    35 
    36 for county in root.findall("country"):
    37    rank=int(county.find("rank").text)
    38    if rank>50:
    39        root.remove(county)
    40 tree.write("output.xml")
    View Code
  • 相关阅读:
    Windows10 JDK1.8安装及环境变量配置
    Adobe Premiere Pro 2020破解教程
    如何消除任务栏系统更新失败的图标
    微服务架构-Gradle下载安装配置教程
    第十五次-语法制导的语义翻译
    第十四次——算符优先分析
    第09组 Alpha冲刺(4/4)
    第09组 Alpha冲刺(3/4)
    第09组 Alpha冲刺(2/4)
    第09组 Alpha冲刺(1/4)
  • 原文地址:https://www.cnblogs.com/Mengchangxin/p/9401210.html
Copyright © 2011-2022 走看看