zoukankan      html  css  js  c++  java
  • 一个方便易用的爬虫框架

    本文转载至  http://www.tuicool.com/articles/VZBj2e

    原文  http://itindex.net/detail/52388-框架

    webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。

    官方网站  http://webmagic.io/

    webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。作者曾经在前公司进行过一年的垂直爬虫的开发,webmagic就是为了解决爬虫开发的一些重复劳动而产生的框架。

    web爬虫是一种技术,webmagic致力于将这种技术的实现成本降低,但是出于对资源提供者的尊重,webmagic不会做反封锁的事情,包括:验证码破解、代理切换、自动登录等。

    webmagic的主要特色:

    • 完全模块化的设计,强大的可扩展性。
    • 核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。
    • 提供丰富的抽取页面API。
    • 无配置,但是可通过POJO+注解形式实现一个爬虫。
    • 支持多线程。
    • 支持分布式。
    • 支持爬取js动态渲染的页面。
    • 无框架依赖,可以灵活的嵌入到项目中去。

    http://git.oschina.net/flashsword20/webmagic#readme

  • 相关阅读:
    MongoDB理解
    jQuery+Ajax+PHP实现异步分页数据显示
    PHP设计模式四:适配器模式
    PHP设计模式三:原型设计模式
    Event Managers
    NetAdvantage
    英语
    CA1060
    DateTime和DateTime2
    宿主进程 vshost.exe
  • 原文地址:https://www.cnblogs.com/Camier-myNiuer/p/4201609.html
Copyright © 2011-2022 走看看