zoukankan      html  css  js  c++  java
  • lxml简明教程

    原文链接:http://yifei.me/note/464
    最近要做下微信爬虫,之前写个小东西都是直接用正则提取数据就算了,如果需要更稳定的提取数据,还是使用 xpath 定位元素比较可靠。周末没事,从爬虫的角度研究了一下 python xml 相关的库。

    Python 标准库中自带了 xml 模块,但是性能不够好,而且缺乏一些人性化的 API,相比之下,第三方库 lxml 是用 Cython 实现的,而且增加了很多实用的功能,可谓爬虫处理网页数据的一件利器。lxml 大部分功能都存在 lxml.etree中,所以下文都假定已经执行了

    from lxml import etree
    

    解析 XML 字符串

    网页下载下来以后是个字符串的形式,使用etree.fromstring(str)构造一个 etree._ElementTree对象,使用 etree.tostring(t)返回一个字符串

    >>> xml_string = '<root><foo id="foo-id" class="foo zoo">Foo</foo><bar>中文</bar><baz></baz></root>'
    >>> root = etree.fromstring(xml_string.encode('utf-8')) # 最好传 byte string
    
    >>> etree.tostring(root)
    # 默认返回的是 byte string
    b'<root>root content<foo id="foo-id" class="foo zoo">Foo</foo><bar>Bar</bar><baz/></root>'
    
    >>> print(etree.tostring(root, pretty_print=True).decode('utf-8'))
    #decode 一下变成 unicode
    <root>
      <foo id="foo-id" class="foo zoo">Foo</foo>
      <bar>Bar</bar>
      <baz/> # 注意这里没有子节点的 baz 节点被变成了自闭和的标签
    </root>
    
    >>> type(root)
    <class 'lxml.etree._Element'>
    
    # 可以看出 tostring 返回的是一个_Element类型的对象,也就是整个 xml 树的根节点
    

    Element结构

    etree._Element 是一个设计很精妙的结构,可以把他当做一个对象访问当前节点自身的文本节点,可以把他当做一个数组,元素就是他的子节点,可以把它当做一个字典,从而遍历他的属性

    >>> root.text
    'root content' # 注意只是 root 自身的文本,并不包含子节点的文本
    >>> root.tag
    'root'
    >>> root[0].tag
    'foo'
    >>> foo = root[0]
    >>> for attr, val in foo.items():
    ...     print(attr, val)
    ...
    id foo-id
    class foo zoo
    >>> foo.get('id')
    'foo-id'
    >>> foo.attrib
    {'class': 'foo zoo', 'id': 'foo-id'}
    

    Element 和 ElementTree

    xml 是一个树形结构,lxml 使用etree._Elementetree._ElementTree来分别代表树中的节点和树,etree.ELementetree.ElementTree 分别是两个工厂函数

    >>> t = root.getroottree()
    # 获得一个节点对应的树
    <lxml.etree._ElementTree object at 0x107295308>
    
    >>> t.getroot() == root
    # 使用getroot 返回一个树的根节点
    True
    
    >>> foo_tree = etree.ElementTree(root)
    # 也可以从一个节点构造一个树,那么这个节点就是这棵树的根
    >>> foo_tree.getroot().tag
    'foo'
    
    >>> foo.getroottree().tag
    'root'
    #注意,foo 这个节点的 roottree 仍然是以 root 节点为根的
    

    其他方法如getparent()/getprevious()/getnext()都是显而易见的,不赘述了

    XPath

    XPath 实在太强大了,在定位元素方面绝对是秒杀 CSS 选择器。在 lxml 中,_Element_ElementTree 分别具有xpath 函数,两者的区别在于:

    如果是相对路径,_Element.xpath是以当前节点为参考的,_ElementTree.xpath以根为参考
    如果是绝对路径,_ElementTree.xpath是以当前节点的getroottree的根节点为参考的

    还有,如果 xpaht 表达式应该返回元素的话,总是返回一个数组,即使只有一个元素

    >>> foo.xpath('/root')[0].tag
    'root'
    >>> foo.xpath('.')[0].tag
    'foo'
    >>>
    >>> t.xpath('/root')[0].tag
    'root'
    >>> t.xpath('.')[0].tag
    'root'
    >>>
    

    lxml 还支持几个函数 find/findall,他们使用 ElementPath,是一种类似 xpath 的语言,感觉很是奇怪,lxml 的文档描述他是 xpath 的一个子集,暂时不看了。

    HTML

    最后再来讨论一下 HTML,以上的讨论都是基于 xml 的,HTML 和 xml 还是有些许不同的,lxml 也有一个专门的 html 模块。
    比如我们解析 html 的话最好使用html.fromstring(),返回的是lxml.html.HtmlElement,具有上述的所有能力,同时能够更好地兼容 html。

    >>> etree.fromstring('<meta charset=utf-8 />')
    # 比如这句就会报错,因为属性值没有用引号括起来
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
      File "src/lxml/lxml.etree.pyx", line 3213, in lxml.etree.fromstring (src/lxml/lxml.etree.c:77737)
      File "src/lxml/parser.pxi", line 1830, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:116674)
      File "src/lxml/parser.pxi", line 1711, in lxml.etree._parseDoc (src/lxml/lxml.etree.c:115220)
      File "src/lxml/parser.pxi", line 1051, in lxml.etree._BaseParser._parseUnicodeDoc (src/lxml/lxml.etree.c:109345)
      File "src/lxml/parser.pxi", line 584, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:103584)
      File "src/lxml/parser.pxi", line 694, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:105238)
      File "src/lxml/parser.pxi", line 624, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:104147)
    lxml.etree.XMLSyntaxError: AttValue: " or ' expected, line 1, column 15
    
    >>> html.fromstring('<meta charset=utf-8>')
    # 没有问题
    

    html.HtmlElement同时多了几项功能

    >>> doc = html.fromstring('<div><p>lorem <span>poium</span></p></div>')
    
    >>> doc.text_content()
    'lorem poium'
  • 相关阅读:
    python hmac解密
    pymongo加索引以及查看索引例子
    语音-数字中继-E1-学习帖
    Partition does not start on physical sector boundary
    吃自助餐怎么样一个顺序吃法才合算?
    关于ROS证书导入的步骤
    MikroTik-ROS-无线设备传输距离
    这个移动通讯中 DB 、DBm 、瓦的基本知识的问题:
    涨姿势 | 无线通讯距离现场评估知多少?
    linux下生成https的crt和key证书
  • 原文地址:https://www.cnblogs.com/ospider/p/5911339.html
Copyright © 2011-2022 走看看