zoukankan      html  css  js  c++  java
  • Selenium+Python Web自动化

    Selenium官方网站

    http://selenium-python.readthedocs.io/

    配置使用环境

    下载相应的浏览器驱动, Firefox 是默认的 
    本文以 chrome 为主 ,放在scripts目录下
    ChromeDriver 官方下载地址 : 所有版本的 ChromeDriver

    文档参考

    简明 Python 教程

    Python教程 - 廖雪峰

    官方文档 : Selenium with Python

    webdriver实用指南python版本

    一份简单的测试 demo

     1 #coding=utf-8
     2 from selenium import webdriver
     3 import os
     4 import time
     5 # set little time stop and big time stop for viewing changes
     6 little_time_stop = 1
     7 big_time_stop = 2
     8 # 默认广告条数
     9 ads_num_require = 8
    10 # 请求连接
    11 req_url = "http://www.haosou.com/s?ie=utf-8&shb=1&src=360sou_newhome&q=%E9%B2%9C%E8%8A%B1"
    12 # 打开浏览器
    13 
    14 browser = webdriver.Chrome()
    15 # 开始请求
    16 17 browser.get(req_url)
    17 # 获取所有的广告
    18 
    19 all_ads_li = browser.find_elements_by_css_selector('#e_idea_pp li')
    20 # 当前广告条数
    21 ads_num_current = len(all_ads_li)
    22 print "Has been got %d ads" %(ads_num_current)
    23 # 如果广告条数与默认不符
    24 if ads_num_current < ads_num_require:
    25     print "The number of ads is not enough ( current : %d require: %d)" %(ads_num_current,ads_num_require)
    26     # exit()
    27 # 获取顶部连接
    28 i = 0
    29 for ads_li in all_ads_li:
    30     time.sleep(big_time_stop)
    31     i = i+1
    32     print "ads %d :" %i
    33     try:
    34         main = ads_li.find_element_by_css_selector('h3 a')
    35     except:
    36         print "	Error: ads %d cann't find" %(i)
    37     else:
    38         print "	Ready: visit ads %d" %(i)
    39         main.click()
    40         print "	Sucess: visit ads %d" %(i)
    41         time.sleep(little_time_stop)
    42     try:
    43         img_link = ads_li.find_element_by_class_name('e_biyi_img')
    44     except:
    45         print "	Error : no img in ads %d " %(i)
    46     else:
    47         print "	Ready : visit img_link %d" %(i)
    48         img_link.click()
    49         print "	Success : visit img_link %d" %(i)
    50         time.sleep(little_time_stop)
    51     try:
    52         child_div = ads_li.find_element_by_class_name('e_biyi_childLink');
    53     except:
    54         print "	Error : no child link in ads %d" %(i)
    55     else:
    56         try:
    57             child_links = child_div.find_elements_by_css_selector('a')
    58         except:
    59             print "	Error : find child_links error"
    60         else:
    61             num_links = len(child_links)
    62             print "	Success : there are %d child_links" %(num_links)
    63             j = 0
    64             for child_a in child_links:
    65                 j = j + 1
    66                 print "		Ready : visit child link %d in ads %d" %(j, i)
    67                 child_a.click()
    68                 print "		Success : visit child link %d in ads %d" %(j, i)
    69                 time.sleep(little_time_stop)
    70 print "End and thanks for your using!"
    71 # 下面代码选择取消注释
    72 # 延时
    73 # time.sleep(5)
    74 # 关闭当前窗口
    75 # browser.close()
    76 # 关闭所有已经打开的窗口
    77 # browser.quit()

    定位操作

    以下是所有定位操作的 API :

    返回一个匹配元素, 即一个 WebElement 元素
    find_element_by_id()
    find_element_by_name()
    find_element_by_class_name()
    find_element_by_tag_name()
    find_element_by_link_text()
    find_element_by_partial_link_text()
    find_element_by_xpath()
    find_element_by_css_selector()
    返回一个列表, 包含所有匹配的元素, 即一个 WebElement 列表
    find_elements_by_id()
    find_elements_by_name()
    find_elements_by_class_name()
    find_elements_by_tag_name()
    find_elements_by_link_text()
    find_elements_by_partial_link_text()
    find_elements_by_xpath()
    find_elements_by_css_selector()

    关于 API 的具体介绍, 请参考 : 
    module-selenium.webdriver.chrome.webdriver

    使用的时候需注意下面几点 :

    • python selenium 提供了两种对象 : WebDriver 和 WebElement

    这两种对象都可以使用这些 API

    • 这些 API 一旦执行失败(即查找不到), 就会抛出异常 

    因此必须使用 try: .. except: ... 机制避免错误的行为影响程序继续进行

    • WebDriver 调用以上 API 进行全局定位 

    WebElement 调用以上 API 可以进行层级定位, 即 查找当前元素的子元素

    WebDriver 的使用

    开始的时候必须要有初始化一个 WebDriver 实例, 即下面的 browser 用来对浏览器进行控制以及页面的访问

    1. # 请求连接
    2. req_url = "http://www.haosou.com/s?ie=utf-8&shb=1&src=360sou_newhome&q=%E9%B2%9C%E8%8A%B1"
    3. # 打开浏览器
    4. browser = webdriver.Chrome()
    5. # 开始请求
    6. browser.get(req_url)

    接着, 就可以使用以上 API 进行当前页面的全局查找, 比如 :

    1. # 获取所有的广告
    2. all_ads_li = browser.find_elements_by_css_selector('#e_idea_pp li')

    WebElement 的使用

    1. 使用 browser.find_element_by_xx() 得到的是一个 WebElement 实例 
      使用获得的实例调用上面的 API 即可进行层级查找

    2. 使用 browser.find_elements_by_xx() 得到的是一个元素是 WebElement 实例的 list 
      通过对 list 的遍历, 即可对各个实例进行相应的操作

    WebDriver 的一些常用操作

    1. browser.curren_url : 获取当前加载页面的 URL
    2. browser.close() : 关闭当前窗口, 如果当前窗口是最后一个窗口, 浏览器将关闭
    3. browser.quit() : 关闭所有窗口并停止 ChromeDriver 的执行
    4. browser.add_cookie(cookie_dict) : 为当前会话添加 cookie 
      browser.get_cookie(name) : 得到执行 cookie 
      browser.get_cookies() : 得到所有的 cookie

      driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’, ‘secure’:True})
      
    5. browser.delete_all_cookies() : 删除当前会话的所有cookie 
      browser.delete_cookie(name) : 删除指定 cookie

    6. browser.back() : 相当于浏览器的后退历史记录
    7. browser.forward() : 相当于浏览器的前进历史记录
    8. browser.execute_script(script, *args) : 同步执行 js 脚本 
      browser.execute_async_script(script, *args) : 异步执行 js 脚本
    9. browser.get(url) : 在当前窗口加载 url
    10. browser.refresh() : 刷新当前页面
    11. browser.current_window_handle : 当前窗口的 handle, 相当于一个指针一样的东西, 用来指向当前窗口
    12. browser.window_handles : 当前浏览器中的已经打开的所有窗口, 是一个 list
    13. browser.switch_to_window(window_handle) : 切换 window_handle 指向的窗口
    14. browser.title : 当前页面的 title
    15. browser.name : 当前浏览器的名字

    具体参照 : module-selenium.webdriver.remote.webdriver

    WebElement 的一些常用操作

    1. webEle.clear() : 清楚元素的内容, 假如这个元素是一个文本元素
    2. webEle.click() : 点击当前元素
    3. webEle,is_displayed() : 当前元素是否可见
    4. webEle.is_enabled() : 当前元素是否禁止, 比如经常会禁用一些元素的点击
    5. webEle.is_selected() : 当前元素是否选中, 文本输入框的内容
    6. webEle.send_keys(*value) : 向当前元素模拟键盘事件
    7. webEle.submit() : 提交表单
    8. webEle.tag_name : 当前元素的标签名
    9. webEle.text : 当前元素的内容
    10. webEle.get_attribute(name) : 获取当前元素执行属性的值

    !!本文转自 https://www.zybuluo.com/mwumli/note/222253

  • 相关阅读:
    数据结构 树(下)
    数据结构 树(上)
    Python Scrapy爬虫(上)
    线程的生命周期
    多线程-方式二实现Runnable接口方式
    Thread类中的常用的方法及概述
    多线程-方式一继承Thread方式
    14: 字母的前趋或后继
    13: A+B
    12: 成绩转换
  • 原文地址:https://www.cnblogs.com/ailiailan/p/8023816.html
Copyright © 2011-2022 走看看