zoukankan      html  css  js  c++  java
  • 开源网络爬虫汇总

    Awesome-crawler-cn

    互联网爬虫,蜘蛛,数据采集器,网页解析器的汇总,因新技术不断发展,新框架层出不穷,此文会不断更新...

    交流讨论

    1. 欢迎推荐你知道的开源网络爬虫,网页抽取框架.
    2. 开源网络爬虫QQ交流群:322937592
    3. email address: liinux at qq.com

    Python

    • Scrapy - 一种高效的屏幕,网页数据采集框架。
      • django-dynamic-scraper - 基于Scrapy内核由django Web框架开发的爬虫。
      • Scrapy-Redis - 基于Scrapy内核采用Redis组件的爬虫。
      • scrapy-cluster - 基于Scrapy内核采用Redis 和 Kafka 开发的分布式爬虫框架。
      • distribute_crawler - 基于Scrapy内核采用redis, mongodb开发的分布式爬虫框架。
    • pyspider - 一个强大纯python的数据采集系统.
    • cola - 一个分布式的爬虫框架.
    • Demiurge - 基于PyQuery的微型爬虫框架.
    • Scrapely - 一个纯python的HTML页面捕捉库.
    • feedparser - 一个通用的feed解析器.
    • you-get - 静默网站爬去下载器.
    • Grab - 网站采集框架.
    • MechanicalSoup - 一个自动化的互动网站Python库.
    • portia - 基于Scrapy的可视化数据采集框架.
    • crawley - 基于非阻塞通信(NIO)的python爬虫框架.
    • RoboBrowser - 一个简单的,不基于Web浏览器的基于Python的Web 浏览器.
    • MSpider - 一个基于gevent(协程网络库)的python爬虫.
    • brownant - 一个轻量级的网络数据抽取框架.

    Java

    • Apache Nutch - 用于生产环境的高度可扩展的高度可扩展的网络爬虫.
      • anthelion - 一个基于Apache Nutch抓取语义注释在HTML页面插件.
    • Crawler4j - 简单和轻量级的网络爬虫.
    • JSoup - 采集,分析,处理和清洗HTML页面.
    • websphinx - HTML网站特定的处理、信息提取.
    • Open Search Server - 全套搜索功能,建立你自己的索引策略。分析、提取全文数据,这个框架可以索引的一切.
    • Gecco - 一个易于使用的轻量级网络爬虫.
    • WebCollector -简单的抓取网页的界面,可以在不到5分钟内部署一个多线程的网络爬虫.
    • Webmagic -一个可扩展的爬虫框架.
    • Spiderman -一个可扩展的,多线程的网络爬虫.
      • Spiderman2 - 分布式网络爬虫框架,支持javascript渲染.
    • Heritrix3 - 可扩展,大规模的网络爬虫项目.
    • SeimiCrawler - 一个敏捷的分布式爬虫框架.
    • StormCrawler - 基于开放源代码、构建低延迟的网络资源采集框架,基于Apache Storm.
    • Spark-Crawler - 基于Apache Nutch 的网络爬虫,可以运行于Spark.

    C#

    • ccrawler - 一个简单的Web内容分类方案,它可以根据其内容分开网页,基于C#3.5.
    • SimpleCrawler - 简单的多线程网络爬虫,基于REG表达式.
    • DotnetSpider - 基于C#开发的一个轻量级,交叉平台的网络爬虫.
    • Abot - 具有很好效率和可扩展性的C#网络爬虫.
    • Hawk -  用 C#/WPF开发的网络爬虫,具有简单的ETL功能.
    • SkyScraper - 一个支持异步网络和有很好扩展性的网络爬虫.

    JavaScript

    • scraperjs - 基于JS的一个功能齐全的网络爬虫.
    • scrape-it - 基于Node.js的网络爬虫.
    • simplecrawler - 基于事件驱动开发的网络爬虫.
    • node-crawler - 提供简单API,适于二次开发的网络爬虫.
    • js-crawler - 基于Node.JS,支持HTTP(S)的网络爬虫.
    • x-ray - 支持分页的网络爬虫.
    • node-osmosis - 基于Node.js适于解析HTML结构的网络爬虫.

    PHP

    • Goutte - 基于PHP的网页截屏和爬取程序.
    • dom-crawler - 易于抽取DOM文件的网络爬虫.
    • pspider - 基于PHP的并发网络爬虫.
    • php-spider - 一个基于PHP的高可扩展的网络爬虫.

    C++

    C

    • httrack - 全部网站整体复制工具。 ## Ruby
    • upton - 一个易于上手的爬虫框架集合,支持CSS选择器.
    • wombat - 基于Ruby天然的支持DSL的网络爬虫,易于提取网页正文数据.
    • RubyRetriever - 基于Ruby的网站数据采集和全网数据收割机.
    • Spidr - 全站数据采集,支持无限的网站链接地址采集.
    • Cobweb - 非常灵活,易于扩展的网络爬虫,可以单点部署使用.
    • mechanize - 自动采集网站数据的框架.

    R

    • rvest - 基于R开发的简单网络爬虫.

    Erlang

    • ebot - 一个分布式,高可扩展的网络爬虫.

    Perl

    • web-scraper - 方便使用HTML、CSS、XPath选择器的网络爬虫。

    Go

    • pholcus - 一个分布式,支持高并发的网络爬虫.
    • gocrawl - 一个高并发的,轻量级,遵守道德的网络爬虫.
    • fetchbot -一个遵守robots.txt规则和延迟规则的轻量级网络爬虫.
    • go_spider - 一个非常好的高并发网络爬虫.
    • dht -支持DHT协议的网络爬虫.
    • ants-go - 基于Golang的高并行网络爬虫.
    • scrape - 一个简单的提供很好开发接口的网络爬虫.

    Scala

    • crawler - 基于Scala DSL的网络爬虫.
    • scrala - 由Scala开发基于scrapy内核的网络爬虫.
    • ferrit - 基于Scala开发使用了Akka, Spray,Cassandra的网络爬虫.
  • 相关阅读:
    jQuery 基本选择器
    JavaScriptif while for switch流程控制 JS函数 内置对象
    JavaScrip基本语法
    数据库 存储引擎 表的操作 数值类型 时间类型 字符串类型 枚举集合 约束
    数据库基础知识 管理员 用户登录授权的操作
    粘包的产生原理 以及如何解决粘包问题
    socket TCP DPT 网络编程
    2018年年终总结
    Android技术分享
    No accelerator found
  • 原文地址:https://www.cnblogs.com/liinux/p/6125315.html
Copyright © 2011-2022 走看看