zoukankan      html  css  js  c++  java
  • python使用SAX解析xml

    python 标准库包含SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件

    在python中使用sax方式处理xml要先引入xml.sax中的parse函数,还有xml.sax.handler中的ContentHandler

    ContentHandler类方法介绍

    # characters(content)方法
    # 调用时机:
    # 从行开始,遇到标签之前,存在字符,content的值为这些字符串。
    # 从一个标签,遇到下一个标签之前, 存在字符,content的值为这些字符串。
    # 从一个标签,遇到行结束符之前,存在字符,content的值为这些字符串。
    # 标签可以是开始标签,也可以是结束标签。

    # startDocument()方法
    # 文档启动的时候调用。

    # endDocument()方法
    # 解析器到达文档结尾时调用。

    # startElement(name, attrs)方法
    # 遇到XML开始标签时调用,name是标签的名字,attrs是标签的属性值字典。

    # endElement(name)方法
    # 遇到XML结束标签时调用。

    # make_parser方法
    # 创建一个新的解析器对象并返回。
    # xml.sax.make_parser( [parser_list] ) # (parser_list - 可选参数,解析器列表)

    # parser方法
    # 创建一个 SAX 解析器并解析xml文档:
    # xml.sax.parse( xmlfile, contenthandler[, errorhandler])
    # 参数说明:
    # xmlfile - xml文件名
    # contenthandler - 必须是一个ContentHandler的对象
    # errorhandler - 如果指定该参数,errorhandler必须是一个SAX ErrorHandler对象

    # parseString方法
    # parseString方法创建一个XML解析器并解析xml字符串
    # xml.sax.parseString(xmlstring, contenthandler[, errorhandler])
    # 参数说明:
    # xmlstring - xml字符串
    # contenthandler - 必须是一个ContentHandler的对象
    # errorhandler - 如果指定该参数,errorhandler必须是一个SAX ErrorHandler对象

    # eg_v1
    
    import xml.sax
    
    class MovieHandler(xml.sax.ContentHandler):
        def __init__(self):
            self.CurrentData = ""
            self.type = ""
            self.format = ""
            self.year = ""
            self.rating = ""
            self.stars = ""
            self.description = ""
    
    # 开始元素处理
        def startElement(self, tag, attributes):
            self.CurrentData = tag
            if tag == "movie":
                print ("*****movie*****")
                title = attributes["title"]
                print ("title:",title)
    
    # 元素结束处理
        def endElement(self, tag):
            if self.CurrentData == "type":
                print ("type:",self.type)
            elif self.CurrentData == "format":
                print ("format:",self.format)
            elif self.CurrentData == "year":
                print ("year:",self.year)
            elif self.CurrentData == "rating":
                print ("rating:",self.rating)
            elif self.CurrentData == "stars":
                print ("stars:",self.stars)
            elif self.CurrentData == "description":
                print ("description:",self.description)
    
    # 内容事件处理
        def characters(self, content):
            if self.CurrentData == "type":
                self.type = content
            elif self.CurrentData == "format":
                self.format = content
            elif self.CurrentData == "year":
                self.year = content
            elif self.CurrentData == "rating":
                self.rating = content
            elif self.CurrentData == "stars":
                self.stars = content
            elif self.CurrentData == "description":
                self.description =content
    
    
    if (__name__ == "__main__"):
    
        parser = xml.sax.make_parser()
        parser.setFeature(xml.sax.handler.feature_namespaces,0)
    
        Headler = MovieHandler()
        parser.setContentHandler( Headler )
    
        parser.parse("movies.xml")
    
    # *****movie*****
    # title: Enemy Behind
    # type: War, Thriller
    # format: DVD
    # year: 2003
    # rating: PG
    # stars: 10
    # description: Talk about a US-Japan war
    # description:
    #
    # *****movie*****
    # title: Transformers
    # type: Anime, Science Fiction
    # format: DVD
    # year: 1989
    # rating: R
    # stars: 8
    # description: A schientific fiction
    # description:
    #
    # *****movie*****
    # title: Trigun
    # type: Anime, Action
    # format: DVD
    # rating: PG
    # stars: 10
    # description: Vash the Stampede!
    # description:
    #
    # *****movie*****
    # title: Ishtar
    # type: Comedy
    # format: VHS
    # rating: PG
    # stars: 2
    # description: Viewable boredom
    # description:
    

      

  • 相关阅读:
    蓝桥杯之递归算法基本框架

    Dubbo是什么
    java
    java
    java
    java
    java
    负载均衡的理解
    设计模式学习
  • 原文地址:https://www.cnblogs.com/xieshengsen/p/6759623.html
Copyright © 2011-2022 走看看