zoukankan      html  css  js  c++  java
  • Python 爬取异步加载的数据

    在我们的工作中,可能会遇到这样的情况:我们需要爬取的数据是通过ajax异步加载的,这样的话通过requests得到的只是一个静态页面,而我们需要的是ajax动态加载的数据!

    那我们应该怎么办呢???

    思路是这样的:F12,查看网络,筛选XHR,点击下拉菜单,等待异步加载的文件 ,得到异步加载url,在通过这个url请求得到我们想要的数据。

    以下为实战代码,可以供大家参考。

    import requests
    from lxml import etree
    # 浏览器伪装
    ua = 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko'
    header = {"User-Agent": ua}
    # GET请求
    url = 'http://www.runoob.com/ajax/ajax-database.html'
    r = requests.get(url, headers=header)
    r.encoding = 'urf-8'
    text = r.text
    # xpath提取信息
    element = etree.HTML(text)
    options = element.xpath('/html/body/div[3]/div/div[2]/div/div[3]/div/div[1]/div/form/select/option/@value')
    print(options)
    # 提取异步加载的信息
    for option in options:
        url = 'http://www.runoob.com/try/ajax/getcustomer.php?q='+option.strip()
        r = requests.get(url, headers=header)
        r.encoding = 'GBK'
        text = r.text
        # xpath提取信息
        element = etree.HTML(text)
        em = element.xpath('/html/body/table/tr[1]/td[1]/em/text()')
        td = element.xpath('/html/body/table/tr[1]/td[2]/text()')
        for e, t in zip(em, td):
            print(e, ' | ', t)
        print('-' * 55, options.index(option) + 1)

    希望能够帮到有需要的朋友。(如果没有安装requests和lxml 模块的话,需要在命令行pip install request、pip install lxml,不然会报错

  • 相关阅读:
    day9文件处理
    day8字符编码
    js小数乘法精确率问题
    webstorm上传vue代码至git
    vue项目关闭eslint检查
    MongoDB相关操作
    Redis持久化存储
    Redis 数据类型
    linux常用命令
    初识NoSQL
  • 原文地址:https://www.cnblogs.com/573734817pc/p/11076680.html
Copyright © 2011-2022 走看看