zoukankan      html  css  js  c++  java
  • Python爬虫连载15-利用selenium模块控制chrome

    一、

    1.下载安装chrome+chrome driver

    2.selenium​操作主要分为两类:

    (1)得到UI元素

    find_element_by_id:通过id值来获取元素

    find_elements_by_name(下面都同理)

    find_elements_by_xpath

    find_elements_by_link_text

    find_elements_by_partial_link_text

    find_elements_by_tag_name

    find_elements_by_class_name

    find_elements_by_css_selector

    (2)基于UI元素操作的模拟

    单击;右键;​拖拽;​输入;可以通过导入ActionChains类来做到

    from selenium import webdriver
    
    from selenium.webdriver.common.keys import Keys#导入的键盘
    
    import time
    
    #可能需要手动添加路径
    
    chromedriverAddress = r"C:Userslenovo1AppDataLocalProgramsPythonPython37Libsite-packagesseleniumwebdriverchromechromedriver.exe"
    
    driver = webdriver.Chrome(executable_path=chromedriverAddress)
    
    #写这一行的时候报错了,可见这里配置:https://blog.csdn.net/weixin_43746433/article/details/95237254
    
    ​
    
    url = "http://www.baidu.com"
    
    driver.get(url)
    
    text1 = driver.find_element_by_id("wrapper").text#得到这个元素的值
    
    print(text1)
    
    print(driver.title)
    
    #得到页面的快照
    
    driver.save_screenshot("index,png")
    
    ​
    
    driver.find_element_by_id("kw").send_keys(u"大熊猫")#向这个id输入“大熊猫”(实际上这里的kw的id就是查找的字段)
    
    driver.find_element_by_id("su").click()#点击操作(实际上就是上一步键入信息,下一步我们进行检索)
    
    time.sleep(5)
    
    driver.save_screenshot("daxiongmao.png")
    
    #获取当前界面的cookie
    
    print(driver.get_cookies())
    
    #模拟输入两个按键ctrl+a
    
    driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'a')
    
    #模拟ctrl + x,剪切操作
    
    driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'x')
    
    driver.find_element_by_id("kw").send_keys(u"航空母舰")
    
    driver.save_screenshot("hangmu.png")
    
    driver.find_element_by_id("su").send_keys(Keys.RETURN)
    
    time.sleep(5)
    
    driver.save_screenshot("hangmu2.png")
    
    #清空输入框,clear
    
    driver.find_element_by_id("kw").clear()
    
    ​
    
    #关闭浏览器
    
    driver.quit()

    二、验证码问题

    1.​验证码最大的作用就是用于判断访问者是机器人还是真人,可以分为:​见到那图片;极验(​官网:www.geetest.com);12306;电话​报验证码;google验证​;

    2.​验证码破解:

    (1)​通用方法:下载网页和验证码​;手动输入验证号码/

    (2)简单图片​:使用图像识别软件​识别软件;可以使用第三方图像验证码破解网站

    三、源码

    Reptile15_1_DHtmlChrome.py

    https://github.com/ruigege66/PythonReptile/blob/master/Reptile15_1_DHtmlChrome.py

    2.CSDN:https://blog.csdn.net/weixin_44630050

    3.博客园:https://www.cnblogs.com/ruigege0000/

    4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料

  • 相关阅读:
    Scrapy的架构与原理的理解【转】
    Scrapy框架的命令行详解【转】
    WPF 程序中启动和关闭外部.exe程序
    C++ 二维数组(双重指针作为函数参数)
    C++ 遇见的一些函数
    C++ #pragma 预处理指令
    C++异常处理(Exception Handling)
    C++模板学习随笔
    C++ 数组的地址问题学习随笔
    关于C++几个容易混淆的概念总结
  • 原文地址:https://www.cnblogs.com/ruigege0000/p/12514819.html
Copyright © 2011-2022 走看看