A web crawler, written for speed, in JAVA and Clojure

zoukankan html css js c++ java

A web crawler, written for speed, in JAVA and Clojure » A programmer's site
A web crawler, written for speed, in JAVA and Clojure » A programmer's site
A web crawler, written for speed, in JAVA and Clojure
十一长假就快要过去了，写的web crawler也告一段落：速度能达到大概下载8万网页/小时， CPU和Mem的使用都比较满意：运行40分钟的截图：
CPU， Mem使用
网络使用（4M带宽，已极限）
按status的分布
Crawler是Rss miner的一部分， git log查看，已零星5个月，这5个月的周末都耗在上面了，其中大部分在crawler上，数次大的重构或重写。
Crawer主要以Clojure和Java完成。 Clojure可以把程序写得很简洁，利用Java可以很好的组织多线程，面向对象 + functional，感觉很不错。
开始，我用Clojure了封装JDK 的 URLConnection, 由于Blocking，为了加快速度，需要使用多线程。
有一些问题，例如：
线程少速度慢，线程多了内存受不了，我对内存较敏感，有一部分是想挑战自己，也有一部分是因为我的VPS只有512M内存，想在上面跑Rss miner, 包括一个Web server，一个Rss fetcher, 一个Web Crawler, 一个Online的实时推荐算法，筹划中….
URLConnection以Stream封装, 不是很方便。
如果各个线程分别自己保存自己下载的数据， Disk可能比较辛苦。如果用Queue送给单独的一个线程处理，又有一个额外的线程开销。
我寻找 Non-blocking的Http Client，试用了两个，都不太满意，自己写了一个，注重性能和稳定性。
实现：
4个线程，每个线程都是一个Loop，相互之间是Producer， Consumer的关系，通过Queue和Event交流
管理状态比较多的，用Java实现，比如用Tagsoup抽取链接和文本，通过规则排除部分URL
DNS prefetch, Pdnsd做DNS cache： UDP提前发送Query请求，忽略结果。
Java搭了一个简单的框架，提供两个Interface, 由Clojure实现
public interface IHttpTask { URI getUri(); Map<String, Object> getHeaders(); Object doTask(HttpResponse response) throws Exception; Proxy getProxy(); }
public interface IHttpTaskProvder { List<IHttpTask> getTasks(); }
查看全文

相关阅读:
【File类：重命名功能】
一段代码-Java
Galahad
简单的中位数
 小A的题线段树区间赋值
 上升子序列方案数
 Superdoku 二分图匹配
 Haybale Guessing 区间并查集
 Dijkstra+二分查找
 莫比乌斯反演

原文地址：https://www.cnblogs.com/lexus/p/2878046.html

A web crawler, written for speed, in JAVA and Clojure » A programmer's site

CPU， Mem使用

网络使用（4M带宽，已极限）

按status的分布

有一些问题， 例如：

实现：

有一些问题，例如：