zoukankan      html  css  js  c++  java
  • 一个例子讲明爬虫解析库xpath

    对爬取的网页进行数据解析有4中方式:

    re正则

    bs4

    xpath

    pyquery

    这里着重介绍xpath

    一。安装

    pip install lxml

    二。优点
    解析效率比较高
    通用性最强的

    三。实例
    from lxml import etree
    from random import choice
    import requests
    
    user_agents = [
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
        "User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"]
    headers = {
        "User-Agent":choice(user_agents)
        }
    url="https://www.qidian.com/mm/rank/yuepiao?chn=0"
    
    response=requests.get(url,headers=headers)
    e=etree.HTML(response.text)
    names=e.xpath('//p[@class="author"]/a[1]/text()')
    titles=e.xpath('//h4/a/text()')
    for name,title in zip(names,titles):
        print(name,':',title)
    结果是控制台输出显示解析到的作者和标题

    四。说明
    response.text 为获取的页面源文件编码

    e.xpath() 按xpath语法编写过滤内容

    xpath语法,可看了解,很简单的https://www.w3school.com.cn/xpath/xpath_syntax.asp

    五。xpath调试工具
    下载
    xpath helper插件
    将其拖入拓展程序

      安装完成后

     调整窗口如下

    bs4

  • 相关阅读:
    线段树
    2016.9.4
    使用CSS代码修改博客模板
    爬虫
    PHP初学[DAY2]
    2016.8.23
    一个自动设置游戏房间的脚本
    可逆矩阵生成
    #2284. 接水果(fruit)
    #3762. 有趣的数(number)
  • 原文地址:https://www.cnblogs.com/hzcjd/p/12879161.html
Copyright © 2011-2022 走看看