实现PageProcessor

zoukankan html css js c++ java

实现PageProcessor

4.1 实现PageProcessor

这部分我们直接通过GithubRepoPageProcessor这个例子来介绍PageProcessor的编写方式。我将PageProcessor的定制分为三个部分，分别是爬虫的配置、页面元素的抽取和链接的发现。

public class GithubRepoPageProcessor implements PageProcessor {

    // 部分一：抓取网站的相关配置，包括编码、抓取间隔、重试次数等

    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

    @Override

    // process是定制爬虫逻辑的核心接口，在这里编写抽取逻辑

    public void process(Page page) {

        // 部分二：定义如何抽取页面信息，并保存下来

        page.putField("author", page.getUrl().regex("https://github\.com/(\w+)/.*").toString());

        page.putField("name", page.getHtml().xpath("//h1[@class='entry-title public']/strong/a/text()").toString());

        if (page.getResultItems().get("name") == null) {

            //skip this page

            page.setSkip(true);

        }

        page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()"));

        // 部分三：从页面发现后续的url地址来抓取

        page.addTargetRequests(page.getHtml().links().regex("(https://github\.com/\w+/\w+)").all());

    }

    @Override

    public Site getSite() {

        return site;

    }

    public static void main(String[] args) {

        Spider.create(new GithubRepoPageProcessor())

                //从"https://github.com/code4craft"开始抓

                .addUrl("https://github.com/code4craft")

                //开启5个线程抓取

                .thread(5)

                //启动爬虫

                .run();

    }

}

查看全文

相关阅读:
Android架构初探
 TinyPNG---一个压缩PNG的神站
 Android添加全屏启动画面
 如何唯一的标识一台Android设备？
获取Android设备唯一标识码
 Android系统资源图标android.R.drawable
Android中使用adb访问SQLite的方法
 Java 对字符串数据进行MD5/SHA1哈希散列运算
 关于Android中EditText自动获取焦点并弹出键盘的相关设置
 EditText自动换行显示内容

原文地址：https://www.cnblogs.com/cnblog-long/p/5376495.html

实现PageProcessor

4.1 实现PageProcessor