zoukankan      html  css  js  c++  java
  • crawler: 爬虫的基本结构

    目前我所知道的爬虫在获取页面信息上,分为静态爬虫和动态爬虫;静态爬虫主要用于获取静态页面,获取速度一般也比较快;但是现在很多网站的页面都是采用动态页面,当我们用爬虫去获取信息的时候,页面的信息可能还没有完全生成,所以我们很难获取完整的网页内容信息。

    所以我们需要构建动态爬虫,目前比较好用的几个工具是PhantomJS, Selenium等:

    PhantomJs类似于浏览器内置的webkit,支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG;可以理解成一个浏览器。

    Selenium是现在使用最为广泛的一款开源自动化测试工具,我们可以用它进行对获取的页面内容进行解析,通常采用xpath,jsoup等等。

    1.构建一个基本的爬虫:

    1)Jsoup 与 HttpClient就可以构建一个简单的静态爬虫

    2)  PhantomJs 与 selenium可以构建一个动态爬虫

    动态爬虫的原理:

      当我们将一个请求发送出去后,为了获取完整的页面信息,我们需要等待Js完全加载后才能获取;所以我们可以将这个过程交给类似浏览器的工具去完成,等到页面完全加载完成后我们在获取完整的页面内容进行解析。

    这是一段网络上selenium应用的代码:

    File pathToBinary = new File("D:\Program Files (x86)\Mozilla Firefox\firefox.exe");         
    FirefoxBinary ffBinary = new FirefoxBinary(pathToBinary); 
    FirefoxProfile firefoxProfile = new FirefoxProfile();
    FirefoxDriver driver = new FirefoxDriver(ffBinary,firefoxProfile); 
    driver.get("http://cq.qq.com/baoliao/detail.htm?294064"); 
    ArrayList list = new ArrayList();
    list.add("http://www.sina.com.cn");
    list.add("http://www.sohu.com");
    list.add("http://www.163.com");
    list.add("http://www.qq.com");
    long start,end;
    for(int i=0;i<list.size();i++){
                start = System.currentTimeMillis();
             driver.get(list.get(i).toString());
                end = System.currentTimeMillis();
                System.out.println(list.get(i).toString() + ":" + (end - start));
             }
          driver.close();

     我们可以通过设置去除一些我们不需要的内容如图片,css元素,广告,flash等等

    例:firefoxProfile.setPreference("permissions.default.image")

    不足的地方是每次我们获取页面都要启动driver,这非常耗时,对于大量的请求页面获取这种操作处理的性能不是太好。

    可取的一些想法是:

    把这些操作做成分布式的

    我们可以写一个自己的客户端程序提供一些页面或者浏览器能访问的地址,我们将获取信息的响应转发到浏览器中执行(实际将响应的内容发送到某个页面给浏览器加载),然后在通过某些操作将结果返回给浏览器处理。

    这里的关键问题在于页面加载完成的时间我们怎样确定?

    · 我们可以通过设置相应的抓取目标然后开多个客户端异步线程进行页面抓取(这里的关键在于爬虫队列的设计,以及内容的存储方式)

    · 抓取页面的过程中我们可能会由于网络问题导致页面延时,下载失败,解析失败等等问题

    · 页面的加载可以通过定时来解决,但是定时策略不是一个很好的办法,因为我们仍然没法确定在一定的时间页面是否能加载完成

    · 还有一种解决方法是将响应的内容用某个js函数执行,然后我们可以通过js回调来确定获取通过ajax请求某个内容然后通过回调函数来确定

    当然我们可以设计的更好一点:

    2.爬虫设计的一些问题





  • 相关阅读:
    三大主流负载均衡软件对比(LVS+Nginx+HAproxy)
    nginx 提示the "ssl" directive is deprecated, use the "listen ... ssl" directive instead
    centos安装nginx并配置SSL证书
    hadoop创建目录文件失败
    The server time zone value 'EDT' is unrecognized or represents more than one time zone.
    脚本启动SpringBoot(jar)
    centos做免密登录
    数据库远程连接配置
    Bash 快捷键
    TCP三次握手四次断开
  • 原文地址:https://www.cnblogs.com/monion/p/4992004.html
Copyright © 2011-2022 走看看