zoukankan html css js c++ java

Python 爬取异步加载的数据

在我们的工作中，可能会遇到这样的情况：我们需要爬取的数据是通过ajax异步加载的，这样的话通过requests得到的只是一个静态页面，而我们需要的是ajax动态加载的数据！

那我们应该怎么办呢？？？

思路是这样的：F12，查看网络，筛选XHR，点击下拉菜单，等待异步加载的文件，得到异步加载url，在通过这个url请求得到我们想要的数据。

以下为实战代码，可以供大家参考。

import requests
from lxml import etree
# 浏览器伪装
ua = 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko'
header = {"User-Agent": ua}
# GET请求
url = 'http://www.runoob.com/ajax/ajax-database.html'
r = requests.get(url, headers=header)
r.encoding = 'urf-8'
text = r.text
# xpath提取信息
element = etree.HTML(text)
options = element.xpath('/html/body/div[3]/div/div[2]/div/div[3]/div/div[1]/div/form/select/option/@value')
print(options)
# 提取异步加载的信息
for option in options:
    url = 'http://www.runoob.com/try/ajax/getcustomer.php?q='+option.strip()
    r = requests.get(url, headers=header)
    r.encoding = 'GBK'
    text = r.text
    # xpath提取信息
    element = etree.HTML(text)
    em = element.xpath('/html/body/table/tr[1]/td[1]/em/text()')
    td = element.xpath('/html/body/table/tr[1]/td[2]/text()')
    for e, t in zip(em, td):
        print(e, ' | ', t)
    print('-' * 55, options.index(option) + 1)

希望能够帮到有需要的朋友。（如果没有安装requests和lxml 模块的话，需要在命令行pip install request、pip install lxml，不然会报错）

查看全文

相关阅读:
Servle生命周期
 Nginx反向代理
 redis
java二分查找
 Redis集群的数据一致性
 springmvc中controller不要定义全局变量
 elasticsearch-6.7.1和kibana-oss-6.7.1的Linux安装
 centos7.0查看IP，Linux基本命令
 高并发ConcurrentHashMap 1.8的原理
 JS 循环 while for do while

原文地址：https://www.cnblogs.com/573734817pc/p/11076680.html

最新文章
表结构
 二叉树
 哈希
 双端队列
 优先级队列
 栈与队列
 单链表
 广度优先遍历算法
 计数排序
 比较排序