python爬取动态页面

有些你想爬取的页面数据并不在html里，而是由js动态加再出来，所以xpath不能提取出想要的数据，有些需要用到正则表达式，例如爬取丁香园疫情数据：

import requests
import re
import json

reault=requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia?scene=2&clicktime=1579583352&enterid=1579583352&from=timeline&isappinstalled=0')

url_text=reault.content.decode()
url_result=re.search(r'window.getAreaStat = (.*?)}]}catch',url_text,re.S)
texts=url_result.group()

texts=texts.replace('window.getAreaStat = ','')
texts=texts.replace('}catch','')
c=json.loads(texts)
print(c)

查看全文

相关阅读:
A Survey of Machine Learning Techniques Applied to Software Defined Networking (SDN): Research Issues and Challenges
A Deep Learning Based DDoS Detection System in Software-Defined Networking (SDN)
解决win10 USB转串口无法使用
 Feeder-Link Outage Prediction Algorithms for SDN-based High-Throughput Satellite
Flow monitoring in Software-Defined Networks
Refining Network Intents for Self-Driving Networks
2020生活变化
 【转载】图解最小堆形成-以数组方式表示
 福大软工 · 最终作业
 福大软工 · 第十二次作业

原文地址：https://www.cnblogs.com/yuanxiaochou/p/12307638.html