selenium的使用

zoukankan html css js c++ java

selenium的使用
0x01：selenium的应用场景

有时候我们在网页的源代码里面不能找到在页面中展示的内容，比如这和新闻页面，https://www.toutiao.com/a6729041718571696653/，并不能再源代码里面找到前端展示出来的图片信息，但是右键检查元素却可以定位到元素的位置。这是因为页面展示的数据并不在源代码中，而是经过js加载的，所以并不能直接从源代码中提取出我们需要的数据，这时候，就可以使用selenium打造一个浏览器爬虫。用代码的方式去模拟浏览器操作过程（如：打开浏览器、在输入框里输入文字、回车等），在爬虫方面很有必要。

0x02：准备工作
- 安装selenium（pip install selenium）
- 安装chromedriver（一个驱动程序，用以启动chrome浏览器，具体的驱动程序需要对应的驱动，在官网上可以找到下载地址），可以参考上篇随笔。
0x03:基本使用
1 from selenium import webdriver　　# 导入模块 2 3 browser = webdriver.Chrome()　　# 创建一个webdriver实例，并选择使用的浏览器 4 browser.get('https://www.baidu.com/')　　# 使用get方法访问目标url 5 browser.close()　　　　# 关闭网页
使用chrome浏览器，打开百度，并进行关闭。selenium支持各种常见的浏览器，但chrome功能强大，推荐大家使用这个。

0x04：获取js渲染后的网页源代码

一些经过js渲染的页面，是无法在网页的源代码中找到在前端展示的内容的。这时候，就需要获取到js选然后的网页源代码，以上面那个新闻的url为例，右键检查一下第一张图片元素，复制它的链接，

然后右键查看网页源代码，对这个图片链接进行搜索，可以看到结果为0。

用pycharm获取js选然后的源代码在进行搜索，就能够找到这个图片的链接

代码如下：
1 from selenium import webdriver 2 3 browser = webdriver.Chrome() 4 browser.get('https://www.toutiao.com/a6729041718571696653/') 5 print(browser.page_source) 6 browser.close()
0x05：元素查找

selenium支持很多元素选取的方法，比如：
- find_element_by_id 通过标签的id属性，查找元素
- find_element_by_name 通过标签的name属性查找元素
- find_element_by_xpath 通过xpath查找元素
- find_element_by_tag_name　　通过元素的标签名称来查找元素。
- find_element_by_class_name　通过元素的class名查找元素
- find_element_by_css_selector 通过css查找元素
https://www.cnblogs.com/qingchunjun/p/4208159.html，这篇文章有详细的讲解。

获取到js渲染后的源代码之后，就可以对需要的信息进行提取，比如我们想要提取出上面那个图片的链接，可以先右键检查一下元素。

发现它在一个class为pgc-img的div标签下的img标签内，可以使用下面代码对这个图片链接进行获取
1 from selenium import webdriver 2 3 browser = webdriver.Chrome() 4 browser.get('https://www.toutiao.com/a6729041718571696653/') 5 div_image = browser.find_element_by_css_selector('.pgc-img').find_element_by_xpath('./img').get_attribute('src') 6 print(div_image) 7 browser.close()
第五行代码，先使用css查找的方法找到了包含img标签的div标签，后面接着用xpath方法找到了img标签，最后利用get_attribute获取img的src属性，这样就提取出了第一i张图片的链接。

0x06：多元素查找

上面只查找到了第一张图片的链接，但如果需要获取到所有图片的链接呢？

首先还是对图片元素进行检查，发现每张图片都在一个class为pgc-img的div标签中，那只要获取到这些div标签，就可以进一步获取到每一张图片的链接了。代码如下
1 from selenium import webdriver 2 3 browser = webdriver.Chrome() 4 browser.get('https://www.toutiao.com/a6729041718571696653/') 5 div_image = browser.find_elements_by_css_selector('.pgc-img') 6 print(div_image) 7 for img in div_image: 8 img_url = img.find_element_by_xpath('./img').get_attribute('src') 9 print(img_url) 10 browser.close()
更改查询方法为find_elements，查找出了所有class为pgc-img的元素，返回对象是一个列表，然后依次对列表里面的元素尽心遍历，查找出每一张图片的链接，结果如图所示

0x07：页面交互

仅仅抓取页面没有多大卵用，我们真正要做的是做到和页面交互，比如点击，输入等等。那么前提就是要找到页面中的元素。可以利用上面说的那些方法，例如下面有一个表单输入框。
<input type="text" name="passwd" id="passwd-id" />

我们可以这样获取它：

1 element = driver.find_element_by_id("passwd-id") 2 element = driver.find_element_by_name("passwd") 3 element = driver.find_elements_by_tag_name("input") 4 element = driver.find_element_by_xpath("//input[@id='passwd-id']")
获取了元素之后，下一步当然就是向文本输入内容了，可以利用下面的方法：
element.send_keys("and some", Keys.ARROW_DOWN)
你可以对任何获取到到元素使用 send_keys 方法，就像你在 GMail 里面点击发送键一样。不过这样会导致的结果就是输入的文本不会自动清除。所以输入的文本都会在原来的基础上继续输入。你可以用下面的方法来清除输入文本的内容。
element.clear()
这样，输入的文本就会被清除了

0x08：页面等待

这是非常重要的一部分，现在的网页越来越多采用了 Ajax 技术，这样程序便不能确定何时某个元素完全加载出来了。这会让元素定位困难而且会提高产生 ElementNotVisibleException 的概率。

所以 Selenium 提供了两种等待方式，一种是隐式等待，一种是显式等待。

隐式等待是等待特定的时间，显式等待是指定某一条件直到这个条件成立时继续执行。

显式等待

显式等待指定某个条件，然后设置最长等待时间。如果在这个时间还没有找到元素，那么便会抛出异常了。
1 from selenium import webdriver 2 from selenium.webdriver.common.by import By 3 from selenium.webdriver.support.ui import WebDriverWait 4 from selenium.webdriver.support import expected_conditions as EC 5 6 driver = webdriver.Chrome() 7 driver.get("http://somedomain/url_that_delays_loading") 8 try: 9 element = WebDriverWait(driver, 10).until( 10 EC.presence_of_element_located((By.ID, "myDynamicElement")) 11 ) 12 finally: 13 driver.quit()
程序默认会 500ms 调用一次来查看元素是否已经生成，如果本来元素就是存在的，那么会立即返回。

隐式等待

隐式等待比较简单，就是简单地设置一个等待时间，单位为秒。
from selenium import webdriver driver = webdriver.Chrome() driver.implicitly_wait(10) # seconds driver.get("http://somedomain/url_that_delays_loading") myDynamicElement = driver.find_element_by_id("myDynamicElement")
文章参考：https://cuiqingcai.com/2599.html

纸上得来终觉浅，绝知此事要躬行。

******************************不积跬步无以至千里。******************************
查看全文

相关阅读:
Caffe + Ubuntu 15.04 + CUDA 7.0 新手安装配置指南
 姚斌分布式作业一
 一个简单正则表达式引擎的实现
 学习编程的方法
 [Leetcode]012. Integer to Roman
[Leetcode]011. Container With Most Water
JOS lab1 part2 分析
 我的Android Studio配置
 [Leetcode]009.Palindrome Number
[Leetcode]008.String to Integer (atoi)

原文地址：https://www.cnblogs.com/liangshian/p/11433908.html

显式等待

隐式等待