zoukankan      html  css  js  c++  java
  • 爬虫请求库之selenium

    一、介绍

    selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题
    
    selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器
    
    from selenium import webdriver
    browser=webdriver.Chrome()    #谷歌浏览器
    browser=webdriver.Firefox()   #火狐浏览器
    browser=webdriver.PhantomJS()
    browser=webdriver.Safari()
    browser=webdriver.Edge() 

    二、安装

    1.有界面浏览器

    #安装selenium+chromedriver
    1.pip install selenium
    2.一定要记得下载chromdriver.exe放到python安装路径scripts目录中,或者放在项目的根目录下,下载的时候注意和浏览器对应的版本

    2.无界面浏览器

    原来是用PhantomJS,现在使用谷歌浏览器headless模式

     三、基本使用

    from selenium import webdriver
    from selenium.webdriver import ActionChains
    from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR
    from selenium.webdriver.common.keys import Keys #键盘按键操作
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素
    
    browser=webdriver.Chrome()  #初始化
    try:
        browser.get('https://www.baidu.com')  #访问网址
        input_tag=browser.find_element_by_id('kw')   #根据id查找
        input_tag.send_keys('美女') #python2中输入中文错误,字符串前加个u
        input_tag.send_keys(Keys.ENTER) #输入回车
    
        wait=WebDriverWait(browser,10)   #显示等待,等待某个元素被加载
        wait.until(EC.presence_of_element_located((By.ID,'content_left'))) #等到id为content_left的元素加载完毕,最多等10秒
        print(browser.page_source)
        print(browser.current_url)
        print(browser.get_cookies())  #获取cookies
    
    finally:
        browser.close()

     四、选择器使用

     一 基本用法

    from selenium import webdriver
    from selenium.webdriver import ActionChains
    from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR
    from selenium.webdriver.common.keys import Keys #键盘按键操作
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素
    import time
    
    bro=webdriver.Chrome()  #初始化
    bro.get('http://www.baidu.com')
    wait=WebDriverWait(bro,10)   #隐示等待
    # 1、find_element_by_id   根据id找
    # 2、find_element_by_link_text     根据链接名字找到控件(a标签的文字)
    # 3、find_element_by_partial_link_text   根据链接名字找到控件(a标签的文字)模糊查询
    # 4、find_element_by_tag_name       根据标签名
    # 5、find_element_by_class_name     根据类名
    # 6、find_element_by_name           根据属性名
    # 7、find_element_by_css_selector   根据css选择器
    # 8、find_element_by_xpath          根据xpath选择
    
    #模拟登录百度 dl_button=bro.find_element_by_link_text("登录") #定位到登录按钮 dl_button.click() user_login=bro.find_element_by_id('TANGRAM__PSP_10__footerULoginBtn') #点击用户名登录 user_login.click() time.sleep(1) input_name=bro.find_element_by_name('userName') #定位到用户名输入框,输入用户名 input_name.send_keys("30323545@qq.com") input_password=bro.find_element_by_id("TANGRAM__PSP_10__password") #输入密码 input_password.send_keys("xxxxxx") submit_button=bro.find_element_by_id('TANGRAM__PSP_10__submit') #点击登录 submit_button.click() time.sleep(100) print(bro.get_cookies()) #获取cookies方法 get_cookies() bro.close() #最后记得关闭

    注意:上诉都可以改成find_elements_by_xxx的形式,查到的是多个元素,结果为列表

     二、xpath

     

     1.在selenium中使用xpath

    driver.find_element_by_xpath('//body/a') #开头的//代表从整篇文档中寻找,body之后的/代表body的儿子中找a标签,这一行找不到就会报错
    driver.find_element_by_xpath('//body//a')  #开头的//代表从整篇文档中寻找,body之后的//代表body的子子孙孙中找a标签,这一行找不到就会报错
    driver.find_element_by_xpath('//a[5]')   #找第五个a标签
    driver.find_element_by_xpath('//a[img/@src="image1"]')   #找a标签下子标签img的src属性为image1

    2.在lxml中使用xpath

    doc='''
    <html>
     <head>
      <base href='http://example.com/' />
      <title>Example website</title>
     </head>
     <body>
      <div id='images'>
       <a href='image1.html' a="xxx">Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
       <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
       <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
       <a href='image4.html' class='li'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
       <a href='image5.html' class='li li-item' name='items'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
       <a href='image6.html' name='items'><span><h5>test</h5></span>Name: My image 6 <br /><img src='image6_thumb.jpg' /></a>
      </div>
     </body>
    </html>
    '''
    from lxml import etree
    
    html=etree.HTML(doc)
    # html=etree.parse('search.html',etree.HTMLParser())
    # 1 所有节点
    a=html.xpath('//*')    #匹配所有标签
    # 2 指定节点(结果为列表)
    # a=html.xpath('//head')
    # 3 子节点,子孙节点
    a=html.xpath('//div/a')
    a=html.xpath('//body/a') #无数据
    a=html.xpath('//body//a')
    # 4 父节点
    # a=html.xpath('//body//a[@href="image1.html"]/..')
    a=html.xpath('//body//a[1]/..')  #从1开始
    # 也可以这样
    a=html.xpath('//body//a[1]/parent::*')
    # 5 属性匹配
    a=html.xpath('//body//a[@href="image1.html"]')
    
    # 6 文本获取
    a=html.xpath('//body//a[@href="image1.html"]/text()')
    a=html.xpath('//body//a/text()')
    
    # 7 属性获取
    # a=html.xpath('//body//a/@href')
    # # 注意从1 开始取(不是从0)
    a=html.xpath('//body//a[2]/@href')
    # 8 属性多值匹配
    #  a 标签有多个class类,直接匹配就不可以了,需要用contains
    # a=html.xpath('//body//a[@class="li"]')
    a=html.xpath('//body//a[contains(@class,"li")]/text()')
    # a=html.xpath('//body//a[contains(@class,"li")]/text()')
    # 9 多属性匹配
    a=html.xpath('//body//a[contains(@class,"li") or @name="items"]')
    a=html.xpath('//body//a[contains(@class,"li") and @name="items"]/text()')
    a=html.xpath('//body//a[contains(@class,"li")]/text()')
    # 10 按序选择
    a=html.xpath('//a[2]/text()')
    a=html.xpath('//a[2]/@href')
    # 取最后一个
    a=html.xpath('//a[last()]/@href')
    # 位置小于3的
    a=html.xpath('//a[position()<3]/@href')
    # 倒数第二个
    a=html.xpath('//a[last()-2]/@href')
    # 11 节点轴选择
    # ancestor:祖先节点
    # 使用了* 获取所有祖先节点
    a=html.xpath('//a/ancestor::*')
    # # 获取祖先节点中的div
    a=html.xpath('//a/ancestor::div')
    # attribute:属性值
    a=html.xpath('//a[1]/attribute::*')
    # child:直接子节点
    a=html.xpath('//a[1]/child::*')
    # descendant:所有子孙节点
    a=html.xpath('//a[6]/descendant::*')
    # following:当前节点之后所有节点
    a=html.xpath('//a[1]/following::*')
    a=html.xpath('//a[1]/following::*[1]/@href')
    # following-sibling:当前节点之后同级节点
    a=html.xpath('//a[1]/following-sibling::*')
    a=html.xpath('//a[1]/following-sibling::a')
    a=html.xpath('//a[1]/following-sibling::*[2]/text()')
    a=html.xpath('//a[1]/following-sibling::*[2]/@href')
    
    print(a)

    三、获取标签属性

    #获取标签属性值
    tag.get_attribute('src')  #获取属性src的值
    
    #获取标签ID,位置,名称,大小
    tag.id
    tag.location
    tag.tag_name
    tag.size

    五、等待元素被加载

    #1、selenium只是模拟浏览器的行为,而浏览器解析页面是需要时间的(执行css,js),一些元素可能需要过一段时间才能加载出来,为了保证能查找到元素,必须等待
    
    #2、等待的方式分两种:
    隐式等待:在browser.get('xxx')前就设置,针对所有元素有效,写一个就行
    browser.implicitly_wait(10) #在查找所有元素时,如果尚未被加载,则等10秒,如果没有10秒也会直接通过
    显式等待:在browser.get(
    'xxx')之后设置,只针对某个元素有效,在每一个需要使用的标签都要写

    六、元素交互操作

    点击、清空
    click()
    clear()

    七、其他

    获取cookies

    browser.get_cookies()

    设置cookies

    browser.add_cookie({'k1':'aaa','k2':'yyy'})

    删除cookies

    browser.delete_all_cookies()

     注意:可以用selenium模拟登录获取到cookie,然后使用requests带上cookies参数请求网页获取数据(selenium结合requests使用)

  • 相关阅读:
    简介anaconda下的jupyter notebook的代码分块运行
    此文件的签名已损坏或无效或360下载提示下载失败解决办法
    Java基础加强
    XML
    Servlet
    Tomcat
    json和跨域
    jQuery的ajax
    ajax请求状态码 以及 页面请求状态码
    ajax 基础
  • 原文地址:https://www.cnblogs.com/wangcuican/p/11938360.html
Copyright © 2011-2022 走看看