zoukankan      html  css  js  c++  java
  • python网页爬虫开发之六-Selenium使用

    chromedriver禁用图片,禁用js,切换UA
    selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。
     
       
     
    from selenium import webdriver
     
    from fake_useragent import UserAgent
     
       
     
    ua = UserAgent().random
     
    print(ua)
     
    chrome_options = webdriver.ChromeOptions()
     
    prefs = {
     
    'profile.default_content_setting_values': {
     
    # 也可以这样写,两种都正确
     
    # 'profile.default_content_settings': {
     
    'images': 2, # 不加载图片
     
    'javascript': 2, # 不加载JS
     
    "User-Agent": ua, # 更换UA
     
    }
     
    }
     
    chrome_options.add_experimental_option("prefs", prefs)
     
    browser = webdriver.Chrome(executable_path="C:/codeapp/seleniumDriver/chrome/chromedriver.exe", chrome_options=chrome_options)
     
    #这个网页可以显示浏览器的信息,这样我们就可以看到我们的UA信息,
     
    url = "https://httpbin.org/get?show_env=1"
     
    browser.get(url)
  • 相关阅读:
    用PHP写一个代理来解决跨域问题
    curl
    centOS 安装及部署 SVN
    vue.js 安装
    谷歌开发者 代码调试同步本地文件功能
    Liunx 下的 SNMP 及 PHP如何连接
    2017年5月11日 开放大学 理财考试记
    js window.onlload 自遐想
    纯页面跳转问题
    mysql 字列问题
  • 原文地址:https://www.cnblogs.com/joxin/p/9850896.html
Copyright © 2011-2022 走看看