Python 使用selenium+webdriver爬取动态网页内容

zoukankan html css js c++ java

Python 使用selenium+webdriver爬取动态网页内容
在使用requests请求一个页面上的元素时，有时会出现请求不到结果的情况

审查元素时可以看到的标签，在页面源代码中却看不到

原因是我们想要的元素是经过js事件动态生成的

一般有两种方式可以拿到我们想要的内容

一、使用selenium模拟浏览器

二、分析网页请求

这里介绍第一种方法

首先安装selenium库

命令提示符输入：
pip install selenium
下载，配置webdriver（以chromdriver为例）

　　1、查看浏览器的版本

　　2、下载chromedriver

　　　　地址：http://npm.taobao.org/mirrors/chromedriver/

　　　　下载浏览器对应版本

　　下载对应系统对应版本（windows64位下载win32版本即可）

　　3、配置chromedriver

　　将下载的文件解压至chrome浏览器的安装路径下

　　配置环境变量

　　路径为文件解压路径

　　

　　

　　4、使用selenium库请求访问网站就可以使用解析库来拿到我们想要的信息了

例如，我们想要这个标题信息，右键审查元素查看代码
from selenium import webdriver from bs4 import BeautifulSoup url = 'https://www.udemy.com/course/network-security-course/' #模拟浏览器请求网站 driver = webdriver.Chrome() res = driver.get(url) doc = BeautifulSoup(driver.page_source, 'html.parser') course = doc.find('h1', class_='clp-lead__title').get_text().replace(' ','') print(course) #关闭浏览器 driver.quit()
　　结果：

　　
查看全文

相关阅读:
CentOS配置启动ssh与开机自启
 CentOS中怎样安装、配置、启动Nginx
CentOS中配置Mysql表名忽略大小写以及提示:Caused by: org.quartz.impl.jdbcjobstore.LockException: Failure obtaining db row lock的解决
 CentOS中部署jar包时提示:org.quartz.SchedulerException: Couldn't get host name
CentOS6中怎样将jdk1.7升级到1.8
CentOS6在使用yum install 时提示镜像源路径不存在:PYCURL ERROR 22
信息系统项目管理师-项目立项管理考点笔记
 chrome89不再支持/deep/的解决方案
 手写async await
proxy和reflect

原文地址：https://www.cnblogs.com/chenchang-rjgc/p/12041165.html