Python

zoukankan html css js c++ java

Python
Selenium Python 官网

安装 Selenium
# python 2+ pip install selenium # python 3+ pip3 install selenium
转载自：莫凡Python 高级爬虫: 让 Selenium 控制你的浏览器帮你爬

driver

要操控浏览器, 你就要有浏览器的 driver. Selenium 针对几个主流的浏览器都有 driver. 针对 Linux 和 MacOS.
- Chrome driver
- Edge driver
- Firefox driver
- Safari driver
Linux 和 MacOS 下载好之后, 将下载好的”geckodriver” 或者 “chromedriver ”文件放在计算机的 “/usr/bin” 或 “/usr/local/bin” 目录. 并赋予执行权限
sudo cp 你的geckodriver位置 /usr/local/bin sudo chmod +x /usr/local/bin/geckodriver
火狐浏览器插件

暂时只有火狐上有这个插件. 插件 Katalon Recorder 下载的网址在这

这个插件能让你记录你使用浏览器的操作.

安装好火狐上的这个插件后, 打开它.

找到插件上的 record, 点它. 开始你的各种点击工作, 比如我的一连串操作是 (强化学习教程->About页面->赞助页面->教程->数据处理->网页爬虫)

虽然这个代码输出只有 Python2 版本的, 不过不影响. 我们直接将这些圈起来的代码复制. 这将会是 python 帮你执行的行为代码.

Python 控制浏览器

开始写 Python 的代码了. 这里十分简单! 我将 selenium 绑定到 Chrome 上 webdriver.Chrome(). 你可以绑其它的浏览器.
from selenium import webdriver driver = webdriver.Chrome() # 打开 Chrome 浏览器 # 将刚刚复制的帖在这 driver.get("https://morvanzhou.github.io/") driver.find_element_by_xpath(u"//img[@alt='强化学习 (Reinforcement Learning)']").click() driver.find_element_by_link_text("About").click() driver.find_element_by_link_text(u"赞助").click() driver.find_element_by_link_text(u"教程 ▾").click() driver.find_element_by_link_text(u"数据处理 ▾").click() driver.find_element_by_link_text(u"网页爬虫").click() # 得到网页 html, 还能截图 html = driver.page_source # get html driver.get_screenshot_as_file("./img/sreenshot1.png") driver.close()
我们可以让 selenium 不弹出浏览器窗口, 让它”安静”地执行操作. 在创建 driver 之前定义几个参数就能摆脱浏览器的身体了.
from selenium.webdriver.chrome.options import Options chrome_options = Options() chrome_options.add_argument("--headless") # define headless driver = webdriver.Chrome(chrome_options=chrome_options) ...
Selenium 能做的事还有很多, 比如填 Form 表单, 超控键盘等等. 欢迎点进去他们的 Python 教学官网.

最后, Selenium 的优点可以很方便的帮你模拟你的操作, 添加其它操作也是非常容易的, 但是也是有缺点的, 不是任何时候 selenium 都很好. 因为要打开浏览器, 加载更多东西, 它的执行速度肯定没有其它模块快. 所以如果你需要速度, 能不用 Selenium, 就不用吧.

相关教程
参考：selenium-webdriver系列博客

selenium-webdriver 处理JS弹出对话框

参考链接：http://www.cnblogs.com/mengyu/p/6952774.html

在实际系统中，在完成某些操作时会弹出对话框来提示，主要分为"警告消息框","确认消息框","提示消息对话"三种类型的对话框。

1.警告消息框（alert）
　　警告消息框提供了一个"确定"按钮让用户关闭该消息框，并且该消息框是模式对话框，也就是说用户必须先关闭该消息框然后才能继续进行操作。

2.确认消息框（confirm）

　　确认消息框向用户提示一个"是与否"问题，用户可以根据选择"确定"按钮和"取消"按钮。

3.提示消息对话（prompt）
　　提示消息框提供了一个文本字段，用户可以在此字段输入一个答案来响应您的提示。该消息框有一个"确定"按钮和一个"取消"按钮。选择"确认"会响应对应的提示信息，选择"取消"会关闭对话框。

selenium 提供switch_to_alert()方法定位到 alert/confirm/prompt对话框。使用 text/accept/dismiss/send_keys 进行操作，这里注意的是send_keys只能对prompt进行操作。
driver = webdriver.Chrome(chrome_options=chrome_options) driver.get(node_url) try: alret = driver.switch_to_alert() # 定位弹出对话 while alret: time.sleep(1) alret.dismiss() # 点击"取消" alret = driver.switch_to_alert() except Exception as e: traceback.print_exc() # print("-------------无广告!!!---------") pass
selenium-webdriver 元素定位

参考链接：https://www.cnblogs.com/mengyu/p/6876294.html

selenium 提供了8中元素定位的方法（大家要学习元素的定位，首先可以学习下前端的基础知识，这样有利于我们学习自动化测试，大家可以看一下：http://www.runoob.com/）
- find_element_by_id
- find_element_by_name
- find_element_by_xpath
- find_element_by_link_text
- find_element_by_partial_link_text
- find_element_by_tag_name
- find_element_by_class_name
- find_element_by_css_selector
Selenium 获取文本信息方法+select（定位）

1.通过先定位到具体的元素然后通过text方法获取文本信息，如获取控件名称等

driver.find_element_by_xpath("//div[/h1").text

2.直接通过定位到的元素的属性直接获取属性名称，如输入框提示信息等

driver.find_element_by_id("XXX").get_attribute(YYY)
driver = webdriver.Chrome() #最大化窗口 driver.maximize_window() # 等待一定时间，让js脚本加载完毕 driver.implicitly_wait(10) driver.get("https://v.qq.com/") driver.find_element_by_xpath("//a[@id='mod_head_notice_trigger']/img").click() driver.implicitly_wait(100) # # driver.find_element_by_class_name(u"btn_qq _login_type_item").click() #错误原因：类名只能单个 # # driver.find_element_by_link_text(u"QQ登录").click() driver.find_element_by_css_selector(u"a[class='btn_qq _login_type_item']").click() # 等待一定时间，让js脚本加载完毕 driver.implicitly_wait(30) print(driver.page_source.encode('utf-8').decode()) # driver.find_element_by_css_selector(u"a[id='switcher_plogin']").click() # a = driver.find_element_by_id("switcher_plogin") # print(a.text) print("123123") # driver.find_element_by_id("switcher_plogin").click() #网页截图 driver.save_screenshot('picture1.png') #打印网页源代码 print(driver.page_source.encode('utf-8').decode())
查看全文

相关阅读:
GCC编译错误小结
 Sword libcurl使用
 Python 包
 Python __all__系统变量
 Python 模块导入
 Python 异常处理
 Python 单例模式
 乐乐课堂_leleketang.com
靠刷题考进了清华？学霸告诉你答案
 python logging配置时间或大小轮转

原文地址：https://www.cnblogs.com/tanrong/p/10034404.html

Selenium Python 官网

安装 Selenium

driver

火狐浏览器插件

Python 控制浏览器

参考：selenium-webdriver系列博客

selenium-webdriver 处理JS弹出对话框

selenium-webdriver 元素定位