zoukankan      html  css  js  c++  java
  • 大三上寒假15天--第11天

    今天继续学习webmagic爬虫

    通过老师给的学习资料学习后,对webmagic爬虫基本有了了解,当时对site方法有点模糊,今天也终于搞明白了,感觉就像模拟了一个用户一样,对一个网站的框架还是不是很了解,所以还是不太理解,那些cookie,host,UserAgent,和header是什么,不过我以后会搞明白,今天准备进行编码实际练习,进行一个网站的爬取。

    这是爬取前十页信件目录一样的网页,还不清楚怎么获取信件内容url,我会继续努力

    package my.webmagic;
    
    import us.codecraft.webmagic.Page;
    import us.codecraft.webmagic.Site;
    import us.codecraft.webmagic.Spider;
    import us.codecraft.webmagic.pipeline.FilePipeline;
    import us.codecraft.webmagic.processor.PageProcessor;
    import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler;
    
    public class Getgov implements PageProcessor{
        private Site site=Site.me().setRetrySleepTime(3).setSleepTime(100);
        /**
         * @param args
         */
        public Site getSite() {
            // TODO Auto-generated method stub
            return site;
        }
    
        public void process(Page page) {
            // TODO Auto-generated method stub
            page.putField("allhtml",page.getHtml().toString());
            String urlstr=null;
        for(int i=2;i<=10;i++){
                urlstr="http://www.beijing.gov.cn/so/s?qt=%E4%BF%A1%E4%BB%B6&tab=all&siteCode=1100000088&page="+i;
                page.addTargetRequest(urlstr);
        }
            }
        public static void main(String[] args) {
            Spider.create(new Getgov())
            .addUrl("http://www.beijing.gov.cn/so/s?qt=%E4%BF%A1%E4%BB%B6&tab=all&siteCode=1100000088&page=1")
            .addPipeline(new FilePipeline("./"))
            .setScheduler(new FileCacheQueueScheduler("./"))
            .thread(5)
            .run();
            System.out.println("完成");
      }
    }
  • 相关阅读:
    VB.NET 操作16进制文件
    MATLAB串口通信与实时数据处理
    matlab中 @文件夹名/+文件夹名 的含义
    C#中的换行符、回车
    利用monkeyrunner给Android屏幕连续截图的小程序
    设计模式之结构型模式
    《设计模式》读书笔记(一)
    开发Android小应用——短信控制的浮动窗
    《重构》读书笔记(一)
    设计模式之行为模式
  • 原文地址:https://www.cnblogs.com/my---world/p/12297456.html
Copyright © 2011-2022 走看看