zoukankan      html  css  js  c++  java
  • Python 配置 selenium 模拟浏览器环境,带下载链接

    使用浏览器渲染引擎。直接用浏览器在显示网页时解析HTML,应用CSS样式并执行JavaScript的语句。

    这方法在爬虫过程中会打开一个浏览器,加载该网页,自动操作浏览器浏览各个网页,顺便把数据抓下来。用一句简单而通俗的话说,使用浏览器渲染方法,爬取动态网页变成了爬取静态网页。

    我们可以用Python的selenium库模拟浏览器完成抓取。Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,浏览器自动按照脚本代码做出点击,输入,打开,验证等操作,就像真正的用户在操作一样

    selenium 的安装与基本介绍

    selenium的安装非常简单,和其他的Python 库一样,我们可以用pip 安装。

    pip install selenium

    火狐浏览器:geckodriver.exe

      下载对应浏览器的版本 geckodriver.exe v15.0版本

      由于最新版火狐不在支持FireBug等开发工具,可以在https://ftp.mozilla.org/pub/firefox/releases/下载49版本以下的火狐,就可以增加Firebug等扩展了。

      我下载了火狐Firefox Setup 48.0b9.exe,安装后,在https://github.com/mozilla/geckodriver/releases/下载最新版geckodriver,将geckodriver.exef放在C:Program Files (x86)Mozilla Firefox目录下(就是你装浏览器的目录哈),并将其加入环境变量,

    
    

      #!/usr/bin/python
      #coding: utf-8


    from
    selenium import webdriver driver = webdriver.Firefox() driver.get('https://www.baidu.com')

    IE11浏览器:IEDriverServer.exe  

      IE浏览器驱动下载链接:http://selenium-release.storage.googleapis.com/index.html(需爬梯),安装最新版v3.9,将其放在C:WindowsSystem32目录下(不用加入环境变量,默认在环境变量中),运行如下代码,发现报错如下,降低版本为3.0.0,重新运行代码发现成功。

    #!/usr/bin/python
    #coding: utf-8
    from selenium import webdriver
    driver = webdriver.Ie()
    driver.get('http://www.baidu.com')
  • 相关阅读:
    thinkphp在模型中自动完成session赋值
    highcharts实例教程二:结合php与mysql生成饼图
    程序员应该经常看看的网站
    highcharts实例教程一:结合php与mysql生成折线图
    2015-2-10 ecshop
    一个简单的javascript获取URL参数的代码
    table 西边框样式
    PHP 获取当前日期及格式化
    mysql 获取当前日期及格式化
    mysql时间int日期转换
  • 原文地址:https://www.cnblogs.com/xiaohe520/p/10767693.html
Copyright © 2011-2022 走看看