一、selenium模块和爬虫之间具有怎样的关联
- 便捷的获取网站中动态加载的数据
- 便捷实现模拟登录
二、什么是selenium模块
基于浏览器自动化的一个模块
三、selenium使用流程
1、环境安装:pip install selenium -i https://mirrors.aliyun.com/pypi/simple
2、下载一个浏览器的驱动程序,如谷歌
下载路径:http://chromedriver.storage.googleapis.com/index.html
驱动程序和浏览器的映射关系:http://blog.csdn.net/huilan_same/article/details/51896672
3、实例化一个浏览器对象
bro = webdriver.Chrome(executable_path='./chromedriver')
4、编写基于浏览器自动化的操作代码
发起请求:get(url)
标签定位:find系列的方法
标签交互:send_keys('xxx')
执行js程序:excute_script('jsCode')
前进,后退:forward() back()
关闭浏览器:quit()
from selenium import webdriver
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver')
bro.get('https://www.taobao.com/')
# 标签定位
search_input = bro.find_element_by_id('q')
# 标签交互
search_input.send_keys('iphone')
# 执行一组js程序
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
sleep(2)
# 点击搜索按钮
btn = bro.find_element_by_css_selector('.btn-search')
btn.click()
bro.get('https://www.baidu.com')
sleep(2)
# 回退
bro.back()
sleep(2)
# 前进
bro.forward()
sleep(5)
bro.quit()