zoukankan      html  css  js  c++  java
  • webmagic API

    1. Site

    方法 说明 示例
    setCharset(String) 设置编码 site.setCharset("utf-8")
    setUserAgent(String) 设置UserAgent site.setUserAgent("Spider")
    setTimeOut(int) 设置超时时间,单位是毫秒 site.setTimeOut(3000)
    setRetryTimes(int) 设置重试次数 site.setRetryTimes(3)
    setCycleRetryTimes(int) 设置循环重试次 site.setCycleRetryTimes(3)
    addCookie(String,String) 添加一条cookie site.addCookie("dotcomt_user","code4craft")
    setDomain(String) 设置域名,需设置域名后,addCookie才可生效 site.setDomain("github.com")
    addHeader(String,String) 添加一条addHeader site.addHeader("Referer","https://github.com")
    setHttpProxy(HttpHost) 设置Http代理 site.setHttpProxy(new HttpHost("127.0.0.1",8080))

    2. Spider

    Spider 是程序的入口

    方法 说明 示例
    create(PageProcessor) 创建Spider Spider.create(new GithubRepoProcessor())
    addUrl(String…) 添加初始的URL spider .addUrl("http://webmagic.io/docs/")
    addRequest(Request...) 添加初始的Request spider .addRequest("http://webmagic.io/docs/")
    thread(n) 开启n个线程 spider.thread(5)
    run() 启动,会阻塞当前线程执行 spider.run()
    start()/runAsync() 异步启动,当前线程继续执行 spider.start()
    stop() 停止爬虫 spider.stop()
    test(String) 抓取一个页面进行测试 spider .test("http://webmagic.io/docs/")
    addPipeline(Pipeline) 添加一个Pipeline,一个Spider可以有多个Pipeline spider .addPipeline(new ConsolePipeline())
    setScheduler(Scheduler) 设置Scheduler,一个Spider只能有个一个Scheduler spider.setScheduler(new RedisScheduler())
    setDownloader(Downloader) 设置Downloader,一个Spider只能有个一个Downloader spider .setDownloader(new SeleniumDownloader())
    get(String) 同步调用,并直接取得结果 ResultItems result = spider .get("http://webmagic.io/docs/")
    getAll(String…) 同步调用,并直接取得一堆结果 List results = spider .getAll("http://webmagic.io/docs/", "http://webmagic.io/xxx")
  • 相关阅读:
    帮助理解Docker,生动装逼介绍Docker
    Java 最常见 200+ 面试题 + 全解析
    CentOS7.0 yum安装 docker
    集合总结
    C#复习笔记
    match方法的使用
    偏函数
    通用装饰器
    装饰器修饰带参数的功能函数
    多个装饰器的使用
  • 原文地址:https://www.cnblogs.com/passer-byZe/p/12592281.html
Copyright © 2011-2022 走看看