zoukankan      html  css  js  c++  java
  • python网页爬虫开发之六-Selenium使用

    chromedriver禁用图片,禁用js,切换UA
    selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。
     
       
     
    from selenium import webdriver
     
    from fake_useragent import UserAgent
     
       
     
    ua = UserAgent().random
     
    print(ua)
     
    chrome_options = webdriver.ChromeOptions()
     
    prefs = {
     
    'profile.default_content_setting_values': {
     
    # 也可以这样写,两种都正确
     
    # 'profile.default_content_settings': {
     
    'images': 2, # 不加载图片
     
    'javascript': 2, # 不加载JS
     
    "User-Agent": ua, # 更换UA
     
    }
     
    }
     
    chrome_options.add_experimental_option("prefs", prefs)
     
    browser = webdriver.Chrome(executable_path="C:/codeapp/seleniumDriver/chrome/chromedriver.exe", chrome_options=chrome_options)
     
    #这个网页可以显示浏览器的信息,这样我们就可以看到我们的UA信息,
     
    url = "https://httpbin.org/get?show_env=1"
     
    browser.get(url)
  • 相关阅读:
    linux 安全组
    php 类
    linux安装phpmyadmin
    mysql设置对外访问
    linux 防火墙
    微信小程序之swiper组件高度自适应
    Thinkphp5 关联模型
    README.md文件编辑
    linux安装mysql
    小程序返回顶部top滚动
  • 原文地址:https://www.cnblogs.com/joxin/p/9850896.html
Copyright © 2011-2022 走看看