zoukankan      html  css  js  c++  java
  • python网页内容提取神器lxml

        

    一、Xpath是什么

    XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

      

    XPath 使用路径表达式在 XML 文档中进行导航

    XPath 包含一个标准函数库

    XPath 是 XSLT 中的主要元素

    XPath 是一个 W3C 标准

      

    二、XPath在python内容提取中的常用规则

    1.选取节点

    XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

    下面列出了最有用的路径表达式:

      

    表达式描述
    nodename 选取此节点的所有子节点。
    / 从根节点选取。
    // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
    . 选取当前节点。
    .. 选取当前节点的父节点。
    @ 选取属性。

      

    示例:

     
    # -*- coding: utf-8 -*-
    from lxml import etree
    import requests
    resp = requests.get('http://www.zuowen.com/dan'
                        'yuanzw/xiaoxueyuwen/rj3s/')
    resp.encoding = 'gbk'
    html = resp.text
    doc = etree.HTML(html)
    # 选取网页标题
    print(doc.xpath('//title')[0].text) # “//”从匹配选择的当前节点选择文档中的节点
    print(doc.xpath('/html/head/title')[0].text) # “/”从根节点开始提取
    

      

  • 相关阅读:
    [斜率优化][DP]luogu P3648 序列分割
    [状压DP]luogu P1879 玉米田
    [最短路][期望DP]luogu P1850 换教室
    [DP]JZOJ 3046 游戏
    [组合数学]JZOJ 3013 填充棋盘
    [贪心]JZOJ 3012 购买
    [最大流][二分]JZOJ 1259 牛棚
    [数学][构造]JZOJ 3317 管道
    Cookie和Session
    XSS和CSRF的理解
  • 原文地址:https://www.cnblogs.com/68xi/p/11676120.html
Copyright © 2011-2022 走看看