zoukankan      html  css  js  c++  java
  • 大三上寒假15天--第11天

    今天继续学习webmagic爬虫

    通过老师给的学习资料学习后,对webmagic爬虫基本有了了解,当时对site方法有点模糊,今天也终于搞明白了,感觉就像模拟了一个用户一样,对一个网站的框架还是不是很了解,所以还是不太理解,那些cookie,host,UserAgent,和header是什么,不过我以后会搞明白,今天准备进行编码实际练习,进行一个网站的爬取。

    这是爬取前十页信件目录一样的网页,还不清楚怎么获取信件内容url,我会继续努力

    package my.webmagic;
    
    import us.codecraft.webmagic.Page;
    import us.codecraft.webmagic.Site;
    import us.codecraft.webmagic.Spider;
    import us.codecraft.webmagic.pipeline.FilePipeline;
    import us.codecraft.webmagic.processor.PageProcessor;
    import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler;
    
    public class Getgov implements PageProcessor{
        private Site site=Site.me().setRetrySleepTime(3).setSleepTime(100);
        /**
         * @param args
         */
        public Site getSite() {
            // TODO Auto-generated method stub
            return site;
        }
    
        public void process(Page page) {
            // TODO Auto-generated method stub
            page.putField("allhtml",page.getHtml().toString());
            String urlstr=null;
        for(int i=2;i<=10;i++){
                urlstr="http://www.beijing.gov.cn/so/s?qt=%E4%BF%A1%E4%BB%B6&tab=all&siteCode=1100000088&page="+i;
                page.addTargetRequest(urlstr);
        }
            }
        public static void main(String[] args) {
            Spider.create(new Getgov())
            .addUrl("http://www.beijing.gov.cn/so/s?qt=%E4%BF%A1%E4%BB%B6&tab=all&siteCode=1100000088&page=1")
            .addPipeline(new FilePipeline("./"))
            .setScheduler(new FileCacheQueueScheduler("./"))
            .thread(5)
            .run();
            System.out.println("完成");
      }
    }
  • 相关阅读:
    ATCoder code festival 2016 qual C
    2019.10.26模拟赛
    2019.10.24模拟赛
    狄利克雷卷积和莫比乌斯反演学习笔记
    ljq的互测の题解
    noi.ac #39
    noi.ac #741 code
    noi.ac #65 triangle
    让别人也可以访问你电脑上的ASP.NET MVC创建的网站
    ASP.NET MVC 开发中遇到的两个小问题
  • 原文地址:https://www.cnblogs.com/my---world/p/12297456.html
Copyright © 2011-2022 走看看