zoukankan      html  css  js  c++  java
  • 用WebCollector爬取站点的图片

    用WebCollector爬取整站图片,仅仅须要遍历整站页面。然后将URL为.jpg、gif的页面(文件)保存到本地就可以。


    比如我们爬取一个美食站点,获取里面全部的图片:

    import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;
    import cn.edu.hfut.dmic.webcollector.model.Page;
    import cn.edu.hfut.dmic.webcollector.util.FileUtils;
    
    import java.io.IOException;
    import java.util.concurrent.atomic.AtomicInteger;
    import java.util.regex.Pattern;
    
    /**
     * 用WebCollector爬虫爬取整站图片
     */
    public class PicCrawler extends BreadthCrawler{
    
        /*用一个整数,不断自增,来作为下载的图片的文件名称*/
        AtomicInteger id=new AtomicInteger(0);
    
        @Override
        public void visit(Page page) {
            
            /*不处理非jpg的网页/文件*/
            if(!Pattern.matches(".*jpg$",page.getUrl())){
                return;
            }
            /*将图片内容保存到文件,page.getContent()获取的是文件的byte数组*/
            try {
                FileUtils.writeFileWithParent("download/"+id.incrementAndGet()+".jpg",page.getContent());
                System.out.println("download:"+page.getUrl());
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    
        public static void main(String[] args) throws Exception {
            PicCrawler crawler=new PicCrawler();
            crawler.addSeed("http://www.meishij.net/");
            crawler.addRegex("http://.*meishij.net/.*");
            crawler.setThreads(50);
            crawler.start(10);
        }
    }
    

    代码将站点图片保存到了project以下的download目录中:



    WebCollector爬虫官网:https://github.com/CrawlScript/WebCollector

    WebCollector文档:http://www.brieftools.info/document/webcollector/

    技术讨论群:250108697


  • 相关阅读:
    from...import...导入模块
    import 导入模块
    模块介绍
    面向过程编程
    生成器表达式
    maven打包项目到nexus私服
    Centos安装solr-5.5.5.tgz
    记录一个spring框架搭建的错误
    dubbo、zookeeper和spring整合
    Centos安装配置weblogic
  • 原文地址:https://www.cnblogs.com/mengfanrong/p/5318880.html
Copyright © 2011-2022 走看看