zoukankan      html  css  js  c++  java
  • 用WebCollector爬取站点的图片

    用WebCollector爬取整站图片,仅仅须要遍历整站页面。然后将URL为.jpg、gif的页面(文件)保存到本地就可以。


    比如我们爬取一个美食站点,获取里面全部的图片:

    import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;
    import cn.edu.hfut.dmic.webcollector.model.Page;
    import cn.edu.hfut.dmic.webcollector.util.FileUtils;
    
    import java.io.IOException;
    import java.util.concurrent.atomic.AtomicInteger;
    import java.util.regex.Pattern;
    
    /**
     * 用WebCollector爬虫爬取整站图片
     */
    public class PicCrawler extends BreadthCrawler{
    
        /*用一个整数,不断自增,来作为下载的图片的文件名称*/
        AtomicInteger id=new AtomicInteger(0);
    
        @Override
        public void visit(Page page) {
            
            /*不处理非jpg的网页/文件*/
            if(!Pattern.matches(".*jpg$",page.getUrl())){
                return;
            }
            /*将图片内容保存到文件,page.getContent()获取的是文件的byte数组*/
            try {
                FileUtils.writeFileWithParent("download/"+id.incrementAndGet()+".jpg",page.getContent());
                System.out.println("download:"+page.getUrl());
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    
        public static void main(String[] args) throws Exception {
            PicCrawler crawler=new PicCrawler();
            crawler.addSeed("http://www.meishij.net/");
            crawler.addRegex("http://.*meishij.net/.*");
            crawler.setThreads(50);
            crawler.start(10);
        }
    }
    

    代码将站点图片保存到了project以下的download目录中:



    WebCollector爬虫官网:https://github.com/CrawlScript/WebCollector

    WebCollector文档:http://www.brieftools.info/document/webcollector/

    技术讨论群:250108697


  • 相关阅读:
    [Re] Spring-4(SourceCode)
    [Re] Spring-3(JdbcTemplate)
    [Re] Spring-2(IOC+AOP)
    [Re] Spring-1(bean)
    08-MyBatis(2)
    08-传输层(7)
    07-传输层(6)
    06-传输层(5)
    05-传输层(4)
    ALS推荐算法
  • 原文地址:https://www.cnblogs.com/mengfanrong/p/5318880.html
Copyright © 2011-2022 走看看