zoukankan      html  css  js  c++  java
  • Selenium with Python 用于网站抓取

      前边一段时间,曾经想做百度图片的抓取,可惜全部都是用javascript封装的,看不到网址,后来不得不转投其他搜索引擎——大神Google(里面的网址是可以直接通过源代码爬取的,只可惜对一些敏感词,搜索不到,这也使得爬取图片大打折扣),后来在网上搜索了一下,才得知需要有一些浏览器渲染引擎,才可以爬取一些含有AJAX、Javascript、CSS网页,Python 用于网站抓取 登录 发布的模块介绍(http://www.open-open.com/lib/view/1346029660489),里面比较详细的分析了Web Browser引擎,在此,不做过多的解释,webkit确实是不错的,也想过用这个,但是不能跨平台,暂时放弃,选择了Selenium,但是在配置Selenium过程中,遇到一些问题,见下:

       1、selenium-server-standalone-2.35.0.jar无法下载,官网上面的链接总是找不到文件;

     2、安装完selenium-2.35.0 python包后,还是无法应用

    首先声明:我的安装环境是Win7+python2.7,针对第一个问题,提供下面的网址:https://code.google.com/p/selenium/downloads/list,在这个里面可以找到最新的selenium-server的jar文件,至于python的selenium包,可以再python的官网上找到,这里提供一个网址:https://pypi.python.org/pypi/selenium/,至于第二个问题,在《Selenium with Python》(https://gist.github.com/daemianmack/1099713#selenium-with-python)中提到如下:

    You can download Python bindings for Selenium from the PyPI page for selenium package. It has a dependency on rdflib, version 3.1.x.

    You can also use easy_install or pip to install the bindings:

    easy_install selenium

    or : pip install selenium

    大致意思是说selenium库还依赖于另一个库rdflib,也确实如此,安装这个库之后,即可应用selenium,网址为:https://pypi.python.org/pypi/rdflib

    总结步骤如下:

    1. 下载selenium-2.35.0 python包:https://pypi.python.org/pypi/selenium,解压,安装,python setup.py install

    2. 下载rdflib 包:https://pypi.python.org/pypi/rdflib,同样,解压,安装,python setup.py install

    3. 下载selenium-server-standalone.jar,(官网上的链接不能用,很郁闷),后来找到一个链接:https://code.google.com/p/selenium/downloads/list

    Java -jar selenium-server.jar来启动Selenium Server端的服务,当然,需要有java支持,才可以,需要安装java的,这个应该好找。

    下面就可以试试你的selenium,是否可用了。

    from selenium import webdriver,如果没有报错,那恭喜你,成功了。

    下面提供几个学习selenium的网址:

    1. Selenium私房菜系列:http://www.cnblogs.com/hyddd/archive/2009/05/20/1473146.html

    2. Selenium中文论坛:http://seleniumcn.cn/thread.php?fid=17

    3. Selenium with Python: https://gist.github.com/daemianmack/1099713

  • 相关阅读:
    C# 调用cmd执行指令
    如何发布 silverlight wcf 简单易学
    C#读取特定目录下的所有文件
    用批处理bat一次安装所有的系统更新补丁
    动态创建datagrid序号
    学习DIV+CSS一个最简单的布局一行三列DIV代码!
    highslide图片查看特效
    相册程序mageVue
    让Apache支持ASP.NET
    ASP.NET四种页面导航方式之比较与选择
  • 原文地址:https://www.cnblogs.com/AlgorithmDot/p/3286138.html
Copyright © 2011-2022 走看看