zoukankan      html  css  js  c++  java
  • A web crawler, written for speed, in JAVA and Clojure » A programmer's site

    A web crawler, written for speed, in JAVA and Clojure » A programmer's site

    A web crawler, written for speed, in JAVA and Clojure

    十一长假就快要过去了, 写的web crawler也告一段落: 速度能达到大概下载8万网页/小时, CPU和Mem的使用都比较满意: 运行40分钟的截图:

    image

    CPU, Mem使用

    image

    网络使用(4M带宽,已极限)

    image

    按status的分布

    Crawler是Rss miner的一部分, git log查看, 已零星5个月, 这5个月的周末都耗在上面了, 其中大部分在crawler上, 数次大的重构或重写。

    Crawer主要以Clojure和Java完成。 Clojure可以把程序写得很简洁, 利用Java可以很好的组织多线程, 面向对象 + functional, 感觉很不错。

    开始, 我用Clojure了封装JDK 的 URLConnection, 由于Blocking, 为了加快速度, 需要使用多线程。

    有一些问题, 例如:

    1. 线程少速度慢, 线程多了内存受不了, 我对内存较敏感, 有一部分是想挑战自己, 也有一部分是因为我的VPS只有512M内存, 想在上面跑Rss miner, 包括一个Web server, 一个Rss fetcher, 一个Web Crawler, 一个Online的实时推荐算法, 筹划中….
    2. URLConnection以Stream封装, 不是很方便。
    3. 如果各个线程分别自己保存自己下载的数据, Disk可能比较辛苦。 如果用Queue送给单独的一个线程处理, 又有一个额外的线程开销。

    我寻找 Non-blocking的Http Client, 试用了两个, 都不太满意, 自己写了一个, 注重性能和稳定性。

    实现:

    • 4个线程, 每个线程都是一个Loop, 相互之间是Producer, Consumer的关系, 通过Queue和Event交流
    • 管理状态比较多的,用Java实现, 比如用Tagsoup抽取链接和文本, 通过规则排除部分URL
    • DNS prefetch, Pdnsd做DNS cache: UDP提前发送Query请求, 忽略结果。
    • Java搭了一个简单的框架, 提供两个Interface, 由Clojure实现
    public interface IHttpTask {
        URI getUri();
        Map<String, Object> getHeaders();
        Object doTask(HttpResponse response) throws Exception;
        Proxy getProxy();
    }
    
    public interface IHttpTaskProvder {
        List<IHttpTask> getTasks();
    }
  • 相关阅读:
    规范的html页面
    什么是MVC (模型 视图 控制器)?
    MVC概念
    MVC实用集锦(1)
    三层架构与MVC的区别
    spring-data-jpa的简单介绍
    Spring和SpringMVC的区别
    Spring常用注解汇总
    jmeter---CSV文件设置操作
    Linux----软件包管理
  • 原文地址:https://www.cnblogs.com/lexus/p/2878046.html
Copyright © 2011-2022 走看看