zoukankan html css js c++ java

高效敏捷的Java爬虫框架SeimiCrawler示例

SeimiCrawler是一个强大的，高效敏捷的，支持分布式的爬虫开发框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里，绝大多数人只需关心去写抓取的业务逻辑就够了，其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发很大，同时融合了Java语言本身特点与Spring的特性，并希望在国内更方便且普遍的使用更有效率的XPath解析HTML，所以SeimiCrawler默认的HTML解析器是JsoupXpath,默认解析提取HTML数据工作均使用XPath来完成（当然，数据处理亦可以自行选择其他解析器）。

原理示例

基本原理

SeimiCrawler原理图

集群原理

快速开始

添加maven依赖(已经同步到中央maven库)：

<dependency>
    <groupId>cn.wanghaomiao</groupId>
    <artifactId>SeimiCrawler</artifactId>
    <version>0.1.0</version>
</dependency>

在包crawlers下添加爬虫规则，例如：

@Crawler(name = "basic")
public class Basic extends BaseSeimiCrawler {
    @Override
    public String[] startUrls() {
        return new String[]{"http://www.cnblogs.com/"};
    }
    @Override
    public void start(Response response) {
        JXDocument doc = response.document();
        try {
            List<Object> urls = doc.sel("//a[@class='titlelnk']/@href");
            logger.info("{}", urls.size());
            for (Object s:urls){
                push(new Request(s.toString(),"getTitle"));
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
    public void getTitle(Response response){
        JXDocument doc = response.document();
        try {
            logger.info("url:{} {}", response.getUrl(), doc.sel("//h1[@class='postTitle']/a/text()|//a[@id='cb_post_title_url']/text()"));
            //do something
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

然后随便某个包下添加启动Main函数，启动SeimiCrawler：

public class Boot {
    public static void main(String[] args){
        Seimi s = new Seimi();
        s.start("basic");
    }
}

以上便是一个最简单的爬虫系统开发流程，很容易上手吧。如果有兴趣深入了解，可以先到SeimiCrawler的官方主页看看，那里也有比较详细的文档

查看全文

相关阅读:
汇总国内开源站点镜像网站-20210813更新
 谈谈技术人的技术家园
 庖丁解码
 好的软件（软件工程）
LeetCode 914卡盘分组
 《黑客与画家》读书笔记
 30岁的我给现在26岁的自己的想说的一些话
 毕业一年半，发现自己还是一个CURD boy
LeetCode 120 Triangle
疫情相关项目复盘

原文地址：https://www.cnblogs.com/wanghaomiao/p/4954842.html