zoukankan      html  css  js  c++  java
  • java爬虫技术

    原博:http://983836259.blog.51cto.com/7311475/1730243

    一、开源爬虫分类:

    1.分布式爬虫:Nutch

    2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector

    3. 非JAVA单机爬虫:scrapy

    二、爬虫基本结构及工作流程:

    三、抓取策略:

    1.深度优先遍历策略

    2.宽度优先遍历策略

    3.反向链接数策略

    4.Partial PageRank策略

    5.OPIC策略策略

    6.大站优先策略

    爬虫的功能来说。用户比较关心的问题往往是:

     1)爬虫支持多线程么、爬虫能用代理么、爬虫会爬取重复数据么、爬虫能爬取JS生成的信息么?

         2)爬虫可以爬取ajax信息么?

         3)爬虫怎么爬取要登陆的网站?

         4)爬虫怎么抽取网页的信息?

         5)爬虫怎么保存网页的信息?

    有一些爬虫,自带一个模块负责持久化。比如webmagic,有一个模块叫pipeline。通过简单地配置,可以将爬虫抽取到的信息,持久化到文件、数据库等。还有一些爬虫,并没有直接给用户提供数据持久化的模块。比如crawler4j和webcollector。让用户自己在网页处理模块中添加提交数据库的操作。至于使用pipeline这种模块好不好,就和操作数据库使用ORM好不好这个问题类似,取决于你的业务。

         6)爬虫被网站封了怎么办?

         7)网页可以调用爬虫么?

         8)爬虫速度怎么样?

        10)哪个爬虫可以判断网站是否爬完、那个爬虫可以根据主题进行爬取?

  • 相关阅读:
    PHPCMS实现文章置顶功能的方法
    phpcms v9栏目列表调用每一篇文章内容方法1
    phpcms v9使用GET调用指定id文章内容、页面数据方法
    PHPCMS GET标签使用
    PHPCMS栏目调用2
    PHPCMS二层栏目调用
    PHPCMS get当中使用limit
    phpcms栏目调用
    WAMP学习日记之:Apache发布php网站
    用Apache实现一个ip虚拟多个web站点
  • 原文地址:https://www.cnblogs.com/wangwanchao/p/5308810.html
Copyright © 2011-2022 走看看